NLP系列(3)_用朴素贝叶斯进行文本分类(下)

最新推荐文章于 2022-07-29 17:12:26 发布

龙心尘

最新推荐文章于 2022-07-29 17:12:26 发布

阅读量1.6w

点赞数 10

分类专栏：机器学习自然语言处理文章标签： nlp 自然语言处理朴素贝叶斯机器学习数据挖掘

本文链接：https://blog.csdn.net/longxinchen_ml/article/details/50629110

版权

本文介绍了为什么不用关键词匹配而使用朴素贝叶斯进行文本分类，探讨了朴素贝叶斯方法在工程实践中的tricks，包括取对数优化计算、转化为权重、选取topk关键词、调整权重考虑文章结构以及使用蜜罐收集垃圾邮件。同时，文章讨论了贝叶斯方法的思维方式，如逆概问题、处理多分类问题以及先验概率的影响。最后，举例说明了朴素贝叶斯在情感倾向分析和拼写纠错中的应用。

摘要由CSDN通过智能技术生成

作者：龙心尘 && 寒小阳
时间：2016年2月。
出处：
http://blog.csdn.net/longxinchen_ml/article/details/50629110
http://blog.csdn.net/han_xiaoyang/article/details/50629587
声明：版权所有，转载请联系作者并注明出处

1. 引言

上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks，并进一步分析贝叶斯方法，最后以情感倾向分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。

2. 为什么不直接匹配关键词来识别垃圾邮件？

看了上一篇文章的一些同学可能会问：“何必费这么大劲算那么多词的概率？直接看邮件中有没有‘代开发票’、‘转售发票’之类的关键词不就得了？如果关键词比较多就认为是垃圾邮件呗。”

咳咳，其实关键词匹配的方法如果有效的话真不必用朴素贝叶斯。毕竟这种方法简单嘛，就是一个字符串匹配。从历史来看，之前没有贝叶斯方法的时候主要也是用关键词匹配。但是这种方法准确率或者召回率太低。比如准确率太低的情况会发现大量误报。感觉就像扔到垃圾箱的邮件99%都是正常的！这样的效果不忍直视。而加一个朴素贝叶斯方法就可能把误报率拉低近一个数量级，而召回率又不怎么变，体验好得不要不要的。

另一个原因是词语的表达方式会随着时间不断变化。发垃圾邮件的人也不傻，当他们发现自己的邮件被大量屏蔽之后，也会考虑采用新的方式，如变换文字、词语、句式、颜色等方式来绕过反垃圾邮件系统。比如对于垃圾邮件“我司可办理正规发票，17%增值税发票点数优惠”,他们采用火星文：“涐司岢办理㊣規髮票，17%增値稅髮票嚸數優蕙”，那么字符串匹配的方法又要重新找出这些火星文，一个一个找出关键词，重新写一些匹配规则。更可怕的是，这些规则可能相互之间的耦合关系异常复杂，要把它们梳理清楚又是大一个数量级的工作量。等这些规则失效了又要手动更新新的规则……无穷无尽猫鼠游戏最终会把猫给累死。

而朴素贝叶斯方法却显示出无比的优势。因为它是基于统计方法的，只要训练样本中有更新的垃圾邮件的新词语，哪怕它们是火星文，都能自动地把哪些更敏感的词语（如“髮”、“㊣”等）给凸显出来，并根据统计意义上的敏感性给他们分配适当的权重 ，这样就不需要什么人工了，非常省事。你只需要时不时地拿一些最新的样本扔到训练集中，重新训练一次即可。

小补充一下，对于火星文、同音字等替代语言，一般的分词技术可能会分得不准，最终可能只把一个一个字给分出来，成为“分字”。效果可能不会太好。也可以用过n-gram之类的语言模型，拿到最常见短语。当然，对于英文等天生自带空格来间隔单词的语言，分词则不是什么问题，使用朴素贝叶斯方法将会更加顺畅。