利用KMeans聚类算法进行聚类

LD的yep

于 2023-12-15 11:30:53 发布

阅读量831

点赞数 17

文章标签： k-means

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72935705/article/details/135013369

版权

利用KMeans聚类算法对新闻文章进行聚类，并观察聚类个数K和初始类中心点对聚类效果的影响。

从新闻文章中抽取出两个数据集，其中一个数据集的文章类型固定，另一个的文章类型不确定，并分别对这两个数据集进行实验分析；
以tf-idf值作为词语特征，余弦相
1. 对新闻文章进行分词，并计算所有词语的tf-idf值；

2. 采用余弦相似度作用相似性度量函数，计算不同新闻文章之间的距离（或相似性）；

3. 选择K篇文章作为初始类中心；

4. 计算所有文章到K篇文章之间的距离，并将每篇文章归划到与之最近的类中心上；

5. 更新类中心的特征向量；

6. 重复第4、5步，直至各个类内的文章趋于稳定。
似度作为文本相似性的度量函数，对新闻文章进行聚类。

mport os
import re
from os import listdir
import jieba
import pandas as pd
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans

outputDir = "D:\数据采集\新浪"
labels = []
corpus = []
size = 480
for i in range(0, 160):

最低0.47元/天解锁文章

关注

17
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
利用KMeans聚类算法进行聚类

print('本次分类总样本数目为:' + str(size) + ' 其中正确分类数目为:' + str(correct[0]) + ' 正确率为：' + str(correct[0] / size), file=doc)file1 = pd.read_excel('D:\数据采集\新浪\新浪娱乐.xlsx', engine='openpyxl')result.append('类别' + '(' + type + ')' + ':' + str(label_i))z = '娱乐' + str(i)
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。