利用K-Means聚类算法进行文档聚类

又渡

已于 2022-05-31 18:29:07 修改

阅读量1.4k

点赞数

分类专栏：互联网搜索引擎文章标签：聚类算法 kmeans

于 2022-05-31 18:20:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abc1230z/article/details/125064842

版权

互联网搜索引擎专栏收录该内容

1 篇文章 0 订阅

订阅专栏

要求：

（1）将下载的500个中文/英文文档聚为20个类，并显示聚类之后所形成的三个最大的类，及每个类中代表性的文档(即离类中心最近的五个文档)。

（2）距离计算公式，可采用余弦距离，也可用欧式距离。

一、采用余弦距离作为判断

值接近1，夹角趋于0，向量间距离小，表明两个向量越相似

值接近0，夹角趋于90度，向量间距离大，表明两个向量越不相似

参考链接：

使用余弦相似度算法计算文本相似度 - alunbar - 博客园 (cnblogs.com)

二、什么是K-Means聚类算法

百科结果：

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

1)没有（或最小数目）对象被重新分配给不同的聚类。

2)没有（或最小数目）聚类中心再发生变化。

3)误差平方和局部最小。

三、实现步骤

（1）选取聚类中心个数k=20，选取要聚类的文档所在文件夹路径fpath

（2）开始聚类

1、直接打开要处理的文档所对应的已经预处理过后的文档（预处理：中文使用jieba分词并删去中文停用词；停用词包含标点等等。英文将单词统一为小写，删去英文停用词，再使用nltk实现英文Porter Stemming功能）。

2、得出词典，将文档向量化，按 “一、采用余弦距离作为判断” 中的方法。

3、随机选取k个对象作为初始的聚类中心。

4、计算每个文档与k个聚类中心的余弦距离，将每个文档分配给距离它最近的聚类中心。

5、重新计算每个聚好的文档类的中心。

6、判断新中心与原中心相似度。如果相似度高，保留原中心作为聚类中心；否则将新中心作为聚类中心。

7、是否每个聚类中心都无变化。若否，进行4、5、6；若是，迭代结束，记录下此时的结果（k个聚类中心的值，每类中所有文档序号及对应余弦距离），进行8。

8、将每个聚类中心对应的文件序号按余弦距离从大到小排序，再将所有聚类中心按每类文档数从大到小排序。

（3）输出运行结果

四、运行举例

英文文档聚20个类

k = 20 fpath = "D:\\.sousuoyinqing\\English_Text"

原文档内容：

处理后的文档内容：

聚类后结果：

五、我的代码+中英文文档附件（文档包含预处理前后的文档）

(23条消息) 利用K-Means聚类算法进行文档聚类（python代码+中英文文档）-搜索引擎文档类资源-CSDN文库

六、参考网页链接（这个超棒！！！）

Kmeans文档聚类算法实现之python - 醉曦 - 博客园 (cnblogs.com)

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
5
评论
利用K-Means聚类算法进行文档聚类

要求：（1）将下载的500个中文/英文文档聚为20个类，并显示聚类之后所形成的三个最大的类，及每个类中代表性的文档(即离类中心最近的五个文档)。（2）距离计算公式，可采用余弦距离，也可用欧式距离。一、采用余弦距离作为判断值接近1，夹角趋于0，向量间距离小，表明两个向量越相似值接近0，夹角趋于90度，向量间距离大，表明两个向量越不相似参考链接：使用余弦相似度算法计算文本相似度 - alunbar - 博客园 (cnblogs.com)二、什么是K-Means聚类算法..
复制链接

扫一扫

专栏目录

又渡 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

61万+: 周排名

128万+: 总排名

1415: 访问

: 等级

11: 积分

2: 粉丝

0: 获赞

5: 评论

12: 收藏

私信

关注

热门文章

利用K-Means聚类算法进行文档聚类 1415

分类专栏

互联网搜索引擎 1篇

最新评论

利用K-Means聚类算法进行文档聚类
又渡: 为什么呀？我是用Visual Studio Code打开.py文件直接跑的。
利用K-Means聚类算法进行文档聚类
Ethan_伊: 代码用不了。。
利用K-Means聚类算法进行文档聚类
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
利用K-Means聚类算法进行文档聚类
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
利用K-Means聚类算法进行文档聚类
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

又渡 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。