文本分类中的词语重要性以及stopwords与词典

DataToAI

已于 2022-05-21 14:19:52 修改

阅读量521

点赞数

文章标签：分类机器学习算法自然语言处理概率论

于 2022-05-16 21:53:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cljcmf/article/details/124807410

版权

文本数据分类常用的分类方法是朴素贝叶斯。
针对特定的文本数据集使用朴素贝叶斯分类时常遇到两个问题：
1）如何排列数据集中的各词语的分类能力
2）如何发现有针对性的停用词集合与用户词典
针对已经给定标签的文本数据集，有两种思路：
1）对文本数据分词后，计算出word在各个分类中的条件概率组成数列，求数列的变异系数c，然后计算(c+1)*TF-IDF(这里的TF是指word在整个数据集中)，结果可以作为word对数据集分类能力的强弱，将较强分类能力且没有业务含义的word作为stopword，或者结合当前业务通过修改用户词典调整该word。此方法相当于先计算出word的分类能力排序。
2）使用朴素贝叶斯对数据集分类以后，计算在分类错误的结果中错误作用较大的word，对于分类错误的样本，计算每个词语的偏向错误类别的作用大小（相比正确分类条件概率的差距）并排序，将错误作用很大并且没有实际含义的word作为stopword，或者结合当前业务通过修改用户词典调整该word。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。