利用K-Means聚类算法进行文档聚类

要求:

1将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即离类中心最近的五个文档)。

2距离计算公式,可采用余弦距离,也可用欧式距离。

一、采用余弦距离作为判断

值接近1,夹角趋于0,向量间距离小,表明两个向量越相似

值接近0,夹角趋于90度,向量间距离大,表明两个向量越不相似

参考链接:

使用余弦相似度算法计算文本相似度 - alunbar - 博客园 (cnblogs.com)

二、什么是K-Means聚类算法

百科结果:

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:

1)没有(或最小数目)对象被重新分配给不同的聚类。

2)没有(或最小数目)聚类中心再发生变化。

3)误差平方和局部最小。

三、实现步骤

(1)选取聚类中心个数k=20,选取要聚类的文档所在文件夹路径fpath

(2)开始聚类

        1、直接打开要处理的文档所对应的已经预处理过后的文档(预处理:中文使用jieba分词并删去中文停用词;停用词包含标点等等。英文将单词统一为小写,删去英文停用词,再使用nltk实现英文Porter Stemming功能)。

        2、得出词典,将文档向量化,按  “一、采用余弦距离作为判断”  中的方法。

        3、随机选取k个对象作为初始的聚类中心。

        4、计算每个文档与k个聚类中心的余弦距离,将每个文档分配给距离它最近的聚类中心。

        5、重新计算每个聚好的文档类的中心。

        6、判断新中心与原中心相似度。如果相似度高,保留原中心作为聚类中心;否则将新中心作为聚类中心。

        7、是否每个聚类中心都无变化。若否,进行4、5、6;若是,迭代结束,记录下此时的结果(k个聚类中心的值,每类中所有文档序号及对应余弦距离),进行8。

        8、将每个聚类中心对应的文件序号按余弦距离从大到小排序,再将所有聚类中心按每类文档数从大到小排序。

(3)输出运行结果

四、运行举例

英文文档聚20个类

k = 20     fpath = "D:\\.sousuoyinqing\\English_Text"

原文档内容:

处理后的文档内容:

聚类后结果:

 

五、我的代码+中英文文档附件(文档包含预处理前后的文档)

(23条消息) 利用K-Means聚类算法进行文档聚类(python代码+中英文文档)-搜索引擎文档类资源-CSDN文库

六、参考网页链接(这个超棒!!!)

Kmeans文档聚类算法实现之python - 醉曦 - 博客园 (cnblogs.com)

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

又渡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值