聚类算法
文章平均质量分 85
介绍自然语言处理中的聚类相关算法
微知girl
我是NLP相关方向研究生,小白一枚,梦想自己有一天能混成业界大牛,文章或代码有任何错误欢迎指出,不胜感激~ 如果觉得对您有用请关注点赞,(#^.^#) 希望大家能一起探讨相关方面问题,互相学习,互相进步,(●'◡'●)~~
展开
-
聚类算法(七)—— Kmeans(含标签聚类和文本聚类代码)
聚类算法相关:聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2聚类算法(三)—— 评测方法3(代码)聚类算法(四)—— 基于词语相似度的聚类算法(含代码)聚类算法(五)——层次聚类 linkage (含代码)聚类算法(六)——谱聚类 (含代码)写了那么多聚类文章,没写Kmeans感觉不太厚道,但是相对来说目前Kmeans介绍的博文很多,相对来说逻辑也比较简单,所以这里我贴一篇个人感觉写的...原创 2020-12-02 15:52:34 · 8216 阅读 · 1 评论 -
聚类算法(六)——谱聚类 (含代码)
聚类算法相关:聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2聚类算法(四)—— 基于词语相似度的聚类算法(含代码)聚类算法(五)——层次聚类 linkage (含代码)原理参考https://blog.csdn.net/qq_24519677/article/details/82291867后续整理代码参考https://github.com/leekeiling/Clust...原创 2020-09-07 17:17:34 · 4675 阅读 · 3 评论 -
聚类算法(五)——层次聚类 linkage (含代码)
一 原理基本工作原理给定要聚类的N的对象以及N*N的距离矩阵(或者是相似性矩阵),层次式聚类方法的基本步骤(参看S.C. Johnson in 1967)如下:1. 将每个对象归为一类,共得到N类,每类仅包含一个对象.类与类之间的距离就是它们所包含的对象之间的距离.2. 找到最接近的两个类并合并成一类,于是总的类数少了一个.3. 重新计算新的类与所有旧类之间的距离.4. 重复第2步和第3步,直到最后合并成一个类为止(此类包含了N个对象).根据步骤...原创 2020-09-07 15:11:03 · 14541 阅读 · 1 评论 -
聚类算法(三)—— 评测方法3(代码)
聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(四)—— 基于词语相似度的聚类算法聚类算法(三)—— 评测方法1聚类算法(三)—— 评测方法2import pandas as pdimport mathdef load_cluster_pred(file_name): df = pd.read_excel(file_name, 0) word_pred_dic = {} cluster_pred_dic = {} for re原创 2020-09-03 11:26:10 · 857 阅读 · 0 评论 -
聚类算法(三)—— 评测方法1
聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比聚类算法(三)—— 评测方法2机缘巧合,写了个聚类算法 聚类算法(四)—— 基于词语相似度的聚类算法 用在一些任务上效果还不错,然鹅组长让我来个评测… 拖了好久拖不掉了,就调研了一番,发现目前对于聚类算法的评测有很多,比较杂乱,进行了相关整理。聚类算法评测指标-调研大体分为两种,一种是内部质量评价标准,主要是无分类标签的数据集进行评价,另外一种是``,主要是基于已知分类标签数据集进行评价的。内部评测指标轮廓系数[外链图片转.原创 2020-09-03 11:19:14 · 1605 阅读 · 0 评论 -
聚类算法(三)—— 评测方法2
当前聚类评测指标评测指标整体概述聚类评测指标详细介绍 算法评测结果 Kmeans评测结果 link内部评价指标主要为无监督聚类评价指标,多采用类内节点和类间节点距离相关计算得到,对于我们目前算法评测不合适,因为本身依据关键词相似度得到的聚类结果外部评价指标主要有RI、ARI、FMI、JC、DI、Precision-Recall、AMI、homogeneity-completeness-V_measureRI、ARI、FMI、JC、DI、AMI可解释性不强,针对当前业务场景使用来说原创 2020-09-03 11:16:55 · 956 阅读 · 0 评论 -
聚类算法(四)—— 基于词语相似度的聚类算法(含代码)
转载请注明出处简单了解了下目前的一些聚类算法,聚类算法(一)——DBSCAN聚类算法(二)—— 优缺点对比目前了解的太少了,后面再进一步调研吧 /(ㄒoㄒ)/~~然后当时就自己拍脑袋写了个基于词语相似度的聚类算法,主要一开始的时候,需求跟聚类还不太一样,类似于词语相似度,扩充词典那样,后来需求变啊变,就变成聚类了,索性就改吧改吧代码,拍出来一个算法原理1. 词与词之间相似度计算,可以用word2vec、fasttext词向量、词林相似度等等等等2. 初始化,可以...原创 2020-09-03 10:51:57 · 9928 阅读 · 8 评论 -
聚类算法(二)—— 优缺点对比
各种聚类算法优缺点:https://blog.csdn.net/randompeople/article/details/91351177总结下:Kmeans优点:简单快速 可处理大数据集,高效可伸缩,复杂度O(nkt),经常以局部最优结束 尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的,而簇与簇之间区别明显时,它的聚类效果很好缺点:对 K 值敏感对离群点和噪声点敏感 初始聚类中心的选择 只能聚凸的数据集,即聚类的形状一般只能是球状的,不能推广到任.原创 2020-07-10 18:47:45 · 8354 阅读 · 0 评论 -
聚类算法(一)——DBSCAN
参考链接DBSCAN为密度聚类的无监督方法。DBScan需要二个参数: 扫描半径 (eps)和最小包含点数(minPts)。 任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点。DBSCAN对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。具体算法描述(1)检测数据库中尚未检查过的对象p,如果p未被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立...原创 2020-07-08 17:34:13 · 2748 阅读 · 0 评论