实战参考
中文文本聚类流程:
- 分词:jieba
- 去除停用词
- 构建词袋模型VSM(vector space model)
- tf-idf构建词权重
- 聚类:k-means
一、 jiba分词 参考链接
定义:jieba分词算法使用了基于基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合, 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
jieba分词支持三种分词模式:
-
精确模式, 试图将句子最精确地切开,适合文本分析:
-
全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
-
搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
二、tf-idf 参考链接
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反