聚类算法(四)—— 基于词语相似度的聚类算法(含代码)

转载请注明出处

简单了解了下目前的一些聚类算法, 

聚类算法(一)——DBSCAN

聚类算法(二)—— 优缺点对比

聚类算法(三)—— 评测方法1

聚类算法(三)—— 评测方法2

聚类算法(三)—— 评测方法3(代码)

聚类算法(四)—— 基于词语相似度的聚类算法(含代码)

聚类算法(五)——层次聚类 linkage (含代码)

聚类算法(六)——谱聚类 (含代码)

目前了解的太少了,后面再进一步调研吧 /(ㄒoㄒ)/~~

然后当时就自己拍脑袋写了个基于词语相似度的聚类算法,主要一开始的时候,需求跟聚类还不太一样,类似于词语相似度,扩充词典那样,后来需求变啊变,就变成聚类了,索性就改吧改吧代码,拍出来一个算法

原理

1. 词与词之间相似度计算,可以用word2vec、fasttext词向量、词林相似度等等等等

2. 初始化,可以有少量已知的类别词语,也可以冷启动

3. 聚类方法,采用计算词语和类中词语平均相似度,根据阈值进行判断是否加入到当前类中,否则添加新的类别

步骤:

  1. 获取需要聚类的文本/词语对应的向量,如果采用word2vec,对于短语或句子,则取切词后词语的向量均值作为其向量,采用fasttext,则直接用句子向量
  2. 初始化类别为空,第一个文本放到第一个类别
  3. 对剩余文本进行聚类,判断与其对应的向量余弦相似度最近的类别(类别向量取类别中句子向量的平均值表示),如果相似度大于阈值,则加入此类别,否则当前文本作为新的类别。
  4. 所有单一文本为一个类别的数据为此次聚类的未成功聚类文本

这种自举的算法虽然不能对所有文本进行聚合,但是能保证成功聚类的点的准确率,简单说,使得聚类的结果中类别内数据更干净。

另外发现,对于一些词语或短句效果有时候能达到意想不到的效果。使用的过程中,可以根据结果,进行相应的数据清洗,例如将一些无关的前后缀或短句中的聚类无关词语去除掉。 举个栗子,比如我聚类得到的一个类别,很多都是 “XX报道”,但是我其实更想将具体的相同的报道内容聚类到一起,那就直接把“报道”去掉就好了。那如果只是想单纯把“报道”相关和“刊物”相关区分&#x

  • 5
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
好的,我知道了,下面是我的回答: 聚类算法是一种无监督学习算法,它可以将数据集中的数据按照某种规则进行分组,使得同一组内的数据相似度较高,不同组之间的数据相似度较低。聚类算法可以帮助我们对数据进行分类、分析和理解,同时也可以为其他机器学习任务提供数据预处理和特征提取的支持。 聚类算法的基本流程包括:确定聚类算法的目标函数、选择相似度度量方法、选择聚类算法、确定聚类的数量、进行聚类操作以及评估聚类效果。常见的聚类算法包括K-Means算法、层次聚类算法、密度聚类算法等。 K-Means算法是一种基于距离的聚类算法,它的基本思想是将数据集中的数据划分为K个簇,使得同一簇内的数据相似度较高,不同簇之间的数据相似度较低。K-Means算法的优点是计算复杂度较低,容易实现,但是需要预先指定簇的数量和初始聚类中心。 层次聚类算法是一种基于相似度聚类算法,它的基本思想是不断合并数据集中相似度最高的数据,直到所有数据都被合并为一个簇或达到预先设定的簇的数量。层次聚类算法的优点是不需要预先指定簇的数量和初始聚类中心,但是计算复杂度较高。 密度聚类算法是一种基于密度的聚类算法,它的基本思想是将数据集中的数据划分为若干个密度相连的簇,不同簇之间的密度差距较大。密度聚类算法的优点是可以发现任意形状的簇,但是对于不同密度的簇分割效果不佳。 以上是聚类算法的基础知识,希望能对您有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微知girl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值