python 增量聚类_文本聚类示例2-single-pass增量聚类

本文介绍了增量聚类方法在文本聚类中的应用,特别是针对‘运动’类别的聚类。讲解了single-pass聚类的工作原理、优缺点,并提及殷风景和陶舒怡对算法的改进。提供了增量聚类的Python代码示例,并预告了接下来的sklearn类和函数介绍,以及特征选择和关键词抽取方法的相关内容。
摘要由CSDN通过智能技术生成

今天介绍分类技术最后的一点内容,single-pass的增量聚类,这里我们以前边分类技术中的语料“运动”类别作为聚类的语料,原因是这份语料不是很纯,抽取出的关键词和“农业”类很相关同时还跟“教育”类相关,我们在这里使用增量聚类先把“运动”类下的文本做聚类,然后对每一个簇抽取出关键词(之后的文章介绍对这些簇抽取关键词),人工通过关键词来抽取出合适的语料,之后再用特征选择方法验证一下(之后的文章介绍)。下边首先做一些有关增量聚类的介绍。

话题发现与跟踪(topic detection and tracking, TDT)的评测中常用的聚类方法是single-pass聚类,其原理简单、计算速度快,然而该算法的缺点也很明显:受输入顺序的影响,且聚类结果精度差。single-pass聚类的基本流程如(1) 接收一篇互联网文本向量d;

(2) d逐一与已有的话题中各报道进行相似度计算,并取最大者作为与该话题的相似度(single-link策略);

(3) 在所有话题间选出与d相似度最大的一个,以及此时的相似度值;

(4) 如果相似度大于阈值TC,d所对应的互联网文本被分配给这个话题模型文本类,跳至(6);

(5) 如果相似度值小于阈值TC,d所对应的文本不属于已有的话题,创建新话题,同时把这篇文本归属创建的新话题模型文本类;

(6) 本次聚类结束,等待文本到来。

阈值在[0,1]之间,阈值设置的越高,得到的簇粒度越小(簇内文本数量少),簇的个数越多;相反,阈值设置的越低,得到的簇粒度越大(簇内文本数量多),簇的个数越少。

有两篇

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值