python 食品_[准确率:98%] 改进朴素贝叶斯自动分类食品安全新闻

weixin_39825872

于 2020-12-20 19:35:37 发布

阅读量597

点赞数

文章标签： python 食品

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39825872/article/details/111749478

版权

这是本系列第二篇文章，位于源代码的 2. NB_Weights 中:

https://github.com/Ckend/NLP_DeepLearning_CN_Tutorial

前一篇文章中，我们学习了如何使用朴素贝叶斯自动分类食品安全新闻，准确率为97%，这一篇文章将教大家如何改进这个模型。阅读本篇文章之前，建议先阅读前一篇文章：[准确率:97%] 朴素贝叶斯自动分类食品安全新闻，否则有些概念可能无法理解。

在那篇文章中，在训练的时候，朴素贝叶斯模型中所有词语都是相同的权重，而事实上真的如此吗？我们怎么样才可以知道哪些词语更加重要呢？这时候，数理统计就派上用场了。

我们先对所有的食品安全新闻和非食品安全新闻使用结巴(jieba)分词, 然后统计各个词性在这分别在这两个类别中的数量，比如说名词的结果如下表(使用SPSS得到，其他词性就不一一展示了)，显然食品安全新闻中名词的数量多于非食品安全新闻，这也是在人意料之中的结果，但是这并不代表着对于食品安全新闻，名词的重要性就大于其他的词性：

那么如何确定各个词性对分类的重要性呢？单纯根据频率和频数确定是比较复杂的，我们可以尝试使用我们的模型，比如说，先得到一个基准的准确值，然后尝试去除掉名词得到一个准确值，观察这两个准确值的差距，如果非常大，说明名词具有比较重要的地位。我们可以试一下：

在所有词性权重都为1的情况下(基准)进行训练，准确率为：

最低0.47元/天解锁文章

weixin_39825872

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 食品_[准确率:98%] 改进朴素贝叶斯自动分类食品安全新闻

这是本系列第二篇文章，位于源代码的 2. NB_Weights 中:https://github.com/Ckend/NLP_DeepLearning_CN_Tutorial前一篇文章中，我们学习了如何使用朴素贝叶斯自动分类食品安全新闻，准确率为97%，这一篇文章将教大家如何改进这个模型。阅读本篇文章之前，建议先阅读前一篇文章：[准确率:97%] 朴素贝叶斯自动分类食品安全新闻，否则有些概念可能无...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。