中文文本聚类主要有以下几个步骤:
- 切词
- 去除停用词
- 构建词袋空间VSM(vector space model)
- TF-IDF构建词权重
- 使用K-means算法
参考博客使用scikit-learn进行KMeans文本聚类,按照以下步骤简单进行了文本聚类:
- 使用
jieba结巴分词
Github对文本进行中文分词 - 使用scikit-learn的
TfidfVectorizer
把原始文本转化为TF-IDF的特征矩阵 - 使用K-means进行文本聚类
具体代码
# -*- coding: utf-8 -*-
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster