最近项目和话题检测、倾向性分析相关,涉及到聚类、文本分类、文本倾向性分析技术,决定形成系统说明并将代码开放出来,作为记录。
数据的话,由于和实验室项目相关,不好开放出来,可以使用搜狗的语料库(http://www.sogou.com/labs/dl/cs.html)。
先大概介绍一下框架,涉及到具体的各个模块,在各个具体的文章中说明:
聚类流程:
1、文本预处理,包括分词、去停用词、统计词频等(如果是英文文本的话,还有词干还原,如porter算法)
2、特征选择(这一步根据数据做选择,可以有,可以没有,如果没有的话,就是用整篇文章内容作为特征),常见的如:信息增益、开方检验、TF-IDF、互信息
3、文本表示,一般可以使用矢量空间模型(VSM),具体的特征值,按需要计算,比如TF-IDF等
4、由于聚类是一个无监督的方法,就没有训练过程了,直接使用聚类算法进行聚类,比如KMeans
5、聚类结果评价,常见的如: