python 增量聚类_文本聚类示例2-single-pass增量聚类

最新推荐文章于 2022-11-02 11:49:29 发布

weixin_39948439

最新推荐文章于 2022-11-02 11:49:29 发布

阅读量1k

点赞数

文章标签： python 增量聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39948439/article/details/111439652

版权

本文介绍了增量聚类方法在文本聚类中的应用，特别是针对‘运动’类别的聚类。讲解了single-pass聚类的工作原理、优缺点，并提及殷风景和陶舒怡对算法的改进。提供了增量聚类的Python代码示例，并预告了接下来的sklearn类和函数介绍，以及特征选择和关键词抽取方法的相关内容。

摘要由CSDN通过智能技术生成

今天介绍分类技术最后的一点内容，single-pass的增量聚类，这里我们以前边分类技术中的语料“运动”类别作为聚类的语料，原因是这份语料不是很纯，抽取出的关键词和“农业”类很相关同时还跟“教育”类相关，我们在这里使用增量聚类先把“运动”类下的文本做聚类，然后对每一个簇抽取出关键词(之后的文章介绍对这些簇抽取关键词)，人工通过关键词来抽取出合适的语料，之后再用特征选择方法验证一下(之后的文章介绍)。下边首先做一些有关增量聚类的介绍。

话题发现与跟踪(topic detection and tracking, TDT)的评测中常用的聚类方法是single-pass聚类，其原理简单、计算速度快，然而该算法的缺点也很明显：受输入顺序的影响，且聚类结果精度差。single-pass聚类的基本流程如(1) 接收一篇互联网文本向量d；

(2) d逐一与已有的话题中各报道进行相似度计算，并取最大者作为与该话题的相似度(single-link策略)；

(3) 在所有话题间选出与d相似度最大的一个，以及此时的相似度值；

(4) 如果相似度大于阈值TC，d所对应的互联网文本被分配给这个话题模型文本类，跳至(6)；

(5) 如果相似度值小于阈值TC，d所对应的文本不属于已有的话题，创建新话题，同时把这篇文本归属创建的新话题模型文本类；

(6) 本次聚类结束，等待文本到来。

阈值在[0,1]之间，阈值设置的越高，得到的簇粒度越小(簇内文本数量少)，簇的个数越多；相反，阈值设置的越低，得到的簇粒度越大(簇内文本数量多)，簇的个数越少。

有两篇

最低0.47元/天解锁文章

weixin_39948439

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 增量聚类_文本聚类示例2-single-pass增量聚类

今天介绍分类技术最后的一点内容，single-pass的增量聚类，这里我们以前边分类技术中的语料“运动”类别作为聚类的语料，原因是这份语料不是很纯，抽取出的关键词和“农业”类很相关同时还跟“教育”类相关，我们在这里使用增量聚类先把“运动”类下的文本做聚类，然后对每一个簇抽取出关键词(之后的文章介绍对这些簇抽取关键词)，人工通过关键词来抽取出合适的语料，之后再用特征选择方法验证一下(之后的文章介绍)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。