文本分类（一）：整体流程

最新推荐文章于 2022-10-27 16:11:29 发布

lxg0807

最新推荐文章于 2022-10-27 16:11:29 发布

阅读量9.3k

点赞数 2

分类专栏： python ML 文章标签：文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxg0807/article/details/50196091

版权

有了新闻分类的语料库，接下来我们就可以进行文本分类了。
首先说一下大概的流程：

1.进行分词
2.去停用词
3.取名词
4.特征提取
5.特征加权
6.构造分类器

正式开始

1 进行分词

现在网上有很多开源的分词工具可以供我们选择, 选择结巴分词进行分词。虽然中科院的分词工具号称是最好的中文分词工具，但是它并木有进行开源。
首先进行jieba的安装，结巴的github托管地址：github。里面有结巴的安装教程，比较好理解。
貌似分词就这么简单的结束了。

2 去停用词

貌似是更加简单的一步，只要找一个停用词表，然后写个小程序进行剔除就可以了。

3 取名词

根据结巴的分词标注结果进行取名词操作，因为往往名词是一篇文章的重点关注对象。这一步需要根据实际任务来做，如果是新闻的话，名词代表的可能就足够了。

4 特征提取

进行语料库（保存很多文章的地方）的各个文章类别的特征提取。采用卡方检验进行特征的提取。

χ 2 (c, w) = N ( A D - B C ) 2 ( A + C ) ( A + B ) ( B + D ) ( C

最低0.47元/天解锁文章

关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。