![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理
文章平均质量分 84
自然语言处理
leeber_94
这个作者很懒,什么都没留下…
展开
-
文本聚类方法之传统聚类,LDA,深度聚类方法
一个簇是一个核心样本的集合,可以通过递归来构建,选取一个核心样本,查找它所有的邻居样本中的核心样本,然后查找新获取的核心样本的邻居样本中的核心样本,递归这个过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。),B部分对低维数据聚类。原创 2020-03-30 19:12:17 · 13587 阅读 · 1 评论 -
python3使用fasttext进行中文文本分类
本文完成在python3下,利用fasttext对中文文本进行分类。期间使用了jieba分词。数据集本文使用skdjfla在github上的头条新闻数据集.包括新闻数据382688条(只包含标题),共15个类别。数据预处理fastext包进行文本分类类似于sklearn,已经进行完整封装,只需要生成指定格式的文本文件即可以开始训练。文件格式如下(__labe__为类别标记)2018 年...原创 2020-03-11 16:22:40 · 3285 阅读 · 3 评论