K-means实现中文短文本聚类

最新推荐文章于 2024-08-18 10:20:19 发布

小虎举杠

最新推荐文章于 2024-08-18 10:20:19 发布

阅读量8.3k

点赞数 6

本文链接：https://blog.csdn.net/qq_43228162/article/details/85111049

版权

本文介绍了使用jieba分词、去除停用词、TF-IDF权重计算及K-means聚类对中文短文本进行预处理和分析的详细流程。在TF-IDF计算过程中遇到溢出问题，K-means部分仍有疑惑，作者表示需要进一步学习和改进。

摘要由CSDN通过智能技术生成

一、具体流程

1.读入文本，并进行分词
2.对分词后的文本进行去除停用词
3.使用TF-IDF进行求出权重
4.通过K-means进行聚类
（由于笔者水平较低，只能用自己好理解的方法写，所以看起来很麻烦，见谅）

二、读入文本并分词

1.读入文本
（1）文本来源于搜狗新闻语料库（链接：）
（2）读入文本（代码如下）

def read_from_file(file_name):
    with open(file_name) as fp:
        words = fp.read()
    return words
words = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\1.txt"))
words1 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\2.txt"))
words2 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\3.txt"))
words3 = (read_from_file("D:\\PyCharm Community Edition 2018.2.4\\python\\day20181127\\sougou_all\\互联网\\4.txt"))
listall = [words,words1,words2,words3]

2.进行分词
（1）安装jieba库：分词需要安装jieba库，在Pycharm里的setting里的project.interpreter里点击右上方的加号，在搜索框中输入jieba点击应用就可以了。
（2）进行分词：（代码如下）

def cut_words(words):
    result = jieba.cut(words)
    words = []
    for r in result:
        words.append(r)
    return

最低0.47元/天解锁文章

小虎举杠

关注

6
点赞
踩
44

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫