![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 71
leeber_94
这个作者很懒,什么都没留下…
展开
-
文本聚类方法之传统聚类,LDA,深度聚类方法
一个簇是一个核心样本的集合,可以通过递归来构建,选取一个核心样本,查找它所有的邻居样本中的核心样本,然后查找新获取的核心样本的邻居样本中的核心样本,递归这个过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。),B部分对低维数据聚类。原创 2020-03-30 19:12:17 · 13476 阅读 · 1 评论 -
均值漂移(Meanshift)算法流程
均值漂移算法是一种常见的聚类算法,经常被应用在图像识别中的目标跟踪、数据聚类等场景中。该算法思想比较简单,对于给定的一定数量样本,首先随便选择一个点,然后计算该点一定范围之内所有点到中心点的距离向量的平均值作为偏移均值(也就是改点范围内的质心),然后将中心点移动到偏移均值位置,通过这种不断重复的移动,可以使中心点逐步逼近到最佳位置。也即:该点会从随机点移动到高密度中心点。我看到大部分介绍均值...原创 2020-03-19 16:45:35 · 4140 阅读 · 3 评论 -
python3使用fasttext进行中文文本分类
本文完成在python3下,利用fasttext对中文文本进行分类。期间使用了jieba分词。数据集本文使用skdjfla在github上的头条新闻数据集.包括新闻数据382688条(只包含标题),共15个类别。数据预处理fastext包进行文本分类类似于sklearn,已经进行完整封装,只需要生成指定格式的文本文件即可以开始训练。文件格式如下(__labe__为类别标记)2018 年...原创 2020-03-11 16:22:40 · 3214 阅读 · 3 评论