文本分类(一):整体流程

有了新闻分类的语料库,接下来我们就可以进行文本分类了。
首先说一下大概的流程:

1.进行分词
2.去停用词
3.取名词
4.特征提取
5.特征加权
6.构造分类器

正式开始

1 进行分词

现在网上有很多开源的分词工具可以供我们选择, 选择结巴分词进行分词。虽然中科院的分词工具号称是最好的中文分词工具,但是它并木有进行开源。
首先进行jieba的安装,结巴的github托管地址:github。里面有结巴的安装教程,比较好理解。
貌似分词就这么简单的结束了。

2 去停用词

貌似是更加简单的一步,只要找一个停用词表,然后写个小程序进行剔除 就可以了。

3 取名词

根据结巴的分词标注结果进行取名词操作,因为往往名词是一篇文章的重点关注对象。这一步需要根据实际任务来做,如果是新闻的话,名词代表的可能就足够了。

4 特征提取

进行语料库(保存很多文章的地方)的各个文章类别的特征提取。采用卡方检验进行特征的提取。

χ2(c,w)=N(ADBC)2(A+C)(A+B)(B+D)(C
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值