使用朴素贝叶斯对垃圾邮件分类_NLP入门1：朴素贝叶斯文本分类

最新推荐文章于 2024-03-03 12:08:41 发布

weixin_39957934

最新推荐文章于 2024-03-03 12:08:41 发布

阅读量573

点赞数

文章标签：使用朴素贝叶斯对垃圾邮件分类朴素贝叶斯做文本分类代码

朴素贝叶斯文本分类：

以垃圾邮件分类举例：

一封邮件根据内容不同，可以被分为“垃圾邮件”和“正常邮件”。垃圾邮件内的单词可能在正常邮件里出现，而正常邮件里的单词也有可能在垃圾邮件里出现。通过朴素贝叶斯文本分类，对于给定的邮件，分别计算它属于垃圾邮件和正常邮件的概率，比较两个的概率，得出文本分类结果。

大致过程：

Training: 统计出每个单词对一个邮件成为垃圾邮件/正常邮件的概率，例：P(“广告”|垃圾），P(“广告”|正常）分别代表在垃圾邮件/正常邮件里“广告”出现的概率
Testing: 用统计结果做一个新的预测

从贝叶斯定理来说，具体公式为：

，对于给定文本x，判断邮件属于y的概率

即：

其中：

对于上述过程，将朴素贝叶斯计算过程细分：

先验概率（prior）：假设一共有10封邮件，6封正常邮件，4封垃圾邮件，P(垃圾）=0.4，P（正常）=0.6
似然(likelihood)：假设每封邮件里有10个单词，正常邮件里累计有10x6=60单词，垃圾邮件里有10x4=40单词；如果“广告”在垃圾邮件里出现了2次，那么P（广告|垃圾）=2/40，如果“广告”在正常邮件里出现1次，同理得P(广告|正常）=1/60，由此分别统计在各类别邮件里单词出现的概率
后验概率（posterior）: 假如新的邮件里有N个单词，那么应该分别计算P（垃圾|邮件内容）和P（正常|邮件内容），则：

在上述过程中，如果一个在单词从未在样本邮件里出现过，那么它的概率为0，则会让分类不合理：

例如“链接”从未在垃圾邮件里出现，却在正常邮件里出现了1次，那么P(链接|垃圾）=0，P(链接|正常）=1/60；如果需要分类的邮件里包括“链接”，则P（垃圾|邮件内容）=0而P（正常|邮件内容）>0， 即便这封邮件实际上属于垃圾邮件，也会被分类到正常邮件中

由此可知：

加一平滑/add-one smoothing:

+V满足条件概率的合理性

同时，为了避免有过多含0-1之间小数相乘造成underflow的情况，在计算的时候会添加log

log(P1P2P3) = log(P1)+log(P2)+log(P3)

比较相对大小，因为log是递增函数

关注