有了新闻分类的语料库,接下来我们就可以进行文本分类了。
首先说一下大概的流程:
1.进行分词
2.去停用词
3.取名词
4.特征提取
5.特征加权
6.构造分类器
正式开始
1 进行分词
现在网上有很多开源的分词工具可以供我们选择, 选择结巴分词进行分词。虽然中科院的分词工具号称是最好的中文分词工具,但是它并木有进行开源。
首先进行jieba的安装,结巴的github托管地址:github。里面有结巴的安装教程,比较好理解。
貌似分词就这么简单的结束了。
2 去停用词
貌似是更加简单的一步,只要找一个停用词表,然后写个小程序进行剔除 就可以了。
3 取名词
根据结巴的分词标注结果进行取名词操作,因为往往名词是一篇文章的重点关注对象。这一步需要根据实际任务来做,如果是新闻的话,名词代表的可能就足够了。
4 特征提取
进行语料库(保存很多文章的地方)的各个文章类别的特征提取。采用卡方检验进行特征的提取。
χ2(c,w)=N(AD−BC)2(A+C)(A+B)(B+D)(C