聚类算法（四）—— 基于词语相似度的聚类算法（含代码）

微知girl

已于 2022-11-15 18:57:08 修改

阅读量9.8k

点赞数 5

分类专栏： # 聚类算法 NLP 文章标签：自然语言处理聚类算法聚类 python

于 2020-09-03 10:51:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/katrina1rani/article/details/108376161

版权

本文介绍了基于词语相似度的聚类算法，包括原理、优缺点及代码实现。算法利用word2vec、fasttext等计算词与词的相似度，通过设置阈值动态聚类。优点在于灵活性高，可根据项目需求调整阈值，但缺点是可能有词语无法聚合，对相似度算法依赖性强。与KMeans相比，更适合类别数不确定且存在异常点的情况。提供了fasttext和word2vec的词向量加载，并提及词林相似度作为替代选项。

摘要由CSDN通过智能技术生成

转载请注明出处

简单了解了下目前的一些聚类算法，

聚类算法（一）——DBSCAN

聚类算法（二）—— 优缺点对比

聚类算法（三）—— 评测方法1

聚类算法（三）—— 评测方法2

聚类算法（三）—— 评测方法3(代码）

聚类算法（四）—— 基于词语相似度的聚类算法（含代码）

聚类算法（五）——层次聚类 linkage （含代码）

聚类算法（六）——谱聚类（含代码）

目前了解的太少了，后面再进一步调研吧 /(ㄒoㄒ)/~~

然后当时就自己拍脑袋写了个基于词语相似度的聚类算法，主要一开始的时候，需求跟聚类还不太一样，类似于词语相似度，扩充词典那样，后来需求变啊变，就变成聚类了，索性就改吧改吧代码，拍出来一个算法

原理

1. 词与词之间相似度计算，可以用word2vec、fasttext词向量、词林相似度等等等等

2. 初始化，可以有少量已知的类别词语，也可以冷启动

3. 聚类方法，采用计算词语和类中词语平均相似度，根据阈值进行判断是否加入到当前类中，否则添加新的类别

步骤：

获取需要聚类的文本/词语对应的向量，如果采用word2vec，对于短语或句子，则取切词后词语的向量均值作为其向量，采用fasttext，则直接用句子向量
初始化类别为空，第一个文本放到第一个类别
对剩余文本进行聚类，判断与其对应的向量余弦相似度最近的类别（类别向量取类别中句子向量的平均值表示），如果相似度大于阈值，则加入此类别，否则当前文本作为新的类别。
所有单一文本为一个类别的数据为此次聚类的未成功聚类文本

这种自举的算法虽然不能对所有文本进行聚合，但是能保证成功聚类的点的准确率，简单说，使得聚类的结果中类别内数据更干净。

另外发现，对于一些词语或短句效果有时候能达到意想不到的效果。使用的过程中，可以根据结果，进行相应的数据清洗，例如将一些无关的前后缀或短句中的聚类无关词语去除掉。举个栗子，比如我聚类得到的一个类别，很多都是 “XX报道”，但是我其实更想将具体的相同的报道内容聚类到一起，那就直接把“报道”去掉就好了。那如果只是想单纯把“报道”相关和“刊物”相关区分&#x

最低0.47元/天解锁文章

关注

5
点赞
踩
63

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微知girl 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。