垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路

最新推荐文章于 2022-12-01 20:22:31 发布

芃之禾

最新推荐文章于 2022-12-01 20:22:31 发布

阅读量755

点赞数 1

分类专栏： nlp学习文章标签：机器学习算法 python 人工智能

本文链接：https://blog.csdn.net/theowl13/article/details/113924891

版权

nlp学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路

判断一个邮件是否是垃圾邮件：

step1. 训练模型过程：

1.计算先验概率：
如现有200封正常邮件，100封垃圾邮件可得到：

$P(正常邮件)=\frac{200}{200+100}=\frac{2}{3}$

$P(垃圾邮件)=\frac{100}{200+100}=\frac{1}{3}$
2.生成词库：

把总共300封邮件中出现的所有文本分词后，填入词库，得到包含所有出现过的词的词库 $V$
假设词库 $V$ 中有3000个词则 $L e n (V) = 3000$

3.计算词库中每一个词在正常邮件和垃圾邮件中出现的概率：
如“点击”这个词在20个正常邮件中出现过，在60个垃圾邮件中出现过，假设一个邮件中有20个词则：

“点击”在正常邮件中出现的概率为：
$P(点击|正常邮件)=\frac{20}{200*20}=\frac{1}{200}$

“点击”在垃圾邮件中出现的概率为：
$P(点击|垃圾邮件)=\frac{20}{100*20}=\frac{1}{100}$

但是由于一些情况如“特惠”这个词在垃圾邮件中出现过，但是在正常邮件中没有出现导致：
$P(特惠|正常邮件)=\frac{0}{200*20}=0$

所以这里要采用一个平滑技术，朴素贝叶斯中一般使用Add-one Smoothing
即如果出现次数为零，为了让值不为零，分子需要+1，分母需要加上词库的大小 $L e n (V) = 3000$ ，因此：

“点击”在正常邮件中出现的概率为：
$P(点击|正常邮件)=\frac{20+1}{200*20+3000}=\frac{3}{1000}$

“点击”在垃圾邮件中出现的概率为：
$P(点击|垃圾邮件)=\frac{20+1}{100*20+3000}=\frac{1}{250}$

……
以此推类，分别计算出词库 $V$ 中每一个词在正常邮件及垃圾邮件中出现的概率

假设这里得到了：
$P(点击|正常邮件)=\frac{3}{1000}$
$P(点击|垃圾邮件)=\frac{1}{250}$

$P(链接|正常邮件)=\frac{1}{5000}$
$P(链接|垃圾邮件)=\frac{1}{230}$

$P(购买|正常邮件)=\frac{7}{2200}$
$P(购买|垃圾邮件)=\frac{1}{310}$

$P(工作|正常邮件)=\frac{1}{210}$
$P(工作|垃圾邮件)=\frac{1}{5000}$
……

当所有单词的概率计算完成后朴素贝叶斯模型就训练完毕。

step2.预测过程：

预测的最终目标是判断：
比较 $P (正常邮件 ∣ 内容)$ 和 $P (垃圾邮件 ∣ 内容)$

根据贝叶斯公式：

对比 $P (正常邮件 ∣ 内容)$ 和 $P (垃圾邮件 ∣ 内容)$

相当于对比 $\frac{P(内容|正常邮件)P(正常邮件)}{P(内容)}$ 和 $\frac{P(内容|垃圾邮件)P(垃圾邮件)}{P(内容)}$

由于分母相同，所以

相当于对比 $P (内容 ∣ 正常邮件) P (正常邮件)$ 和 $P (内容 ∣ 垃圾邮件) P (垃圾邮件)$ 的大小

假如此时收到了一封新邮件，邮件中包含很多词，其中有“工作”、“购买”，“链接”，“点击” ……等等

1.计算： $P (内容 ∣ 正常邮件) P (正常邮件)$

$P(内容|正常邮件)P(正常邮件)=(P(工作|正常邮件)\times P(购买|正常邮件)\times P(链接|正常邮件)\times ....\times P(点击|正常邮件))\times P(正常邮件)=(\frac{1}{210}\times\frac{7}{2200}\times\frac{1}{5000}\times ....\times\frac{3}{1000})\times \frac{2}{3}$

2.计算： $P (内容 ∣ 垃圾邮件) P (垃圾邮件)$

$P(内容|垃圾邮件)P(垃圾邮件)=(P(工作|垃圾邮件)\times P(购买|垃圾邮件)\times P(链接|垃圾邮件)\times ....\times P(点击|垃圾邮件))\times P(垃圾邮件)=(\frac{1}{5000}\times\frac{1}{310}\times\frac{1}{230}\times ....\times\frac{1}{250})\times \frac{1}{3}$

这里也可以看到有非常多类似 $P (工作 ∣ 垃圾邮件)$ 的值在相乘，如果其中有任何一个值等于0的话，会导致整个式子等于0。这也是为什么要做Smoothing平滑处理

3.对比第一步和第二步计算出的值

如果 $P (内容 ∣ 正常邮件) P (正常邮件) > = P (内容 ∣ 垃圾邮件) P (垃圾邮件)$ 则预测此邮件为正常邮件
如果 $P (内容 ∣ 正常邮件) P (正常邮件) < P (内容 ∣ 垃圾邮件) P (垃圾邮件)$ 则预测此邮件为垃圾邮件

需要注意的点：

当词库数量非常大时，每一个类似 $P (工作 ∣ 垃圾邮件)$ 的值会非常非常小，小数位过多时导致计算机不能存储。会报underflow错误
都知道 $L o g$ 是个严格递增函数所以step2.预测过程中第一步和第二步的式子也可以转化成：

$Log(P(内容|正常邮件))P(正常邮件)=Log((P(工作|正常邮件)\times P(购买|正常邮件)\times P(链接|正常邮件)\times ....\times P(点击|正常邮件))\times P(正常邮件)=(\log{\frac{1}{210}}+\log{\frac{7}{2200}}+\log{\frac{1}{5000}}+....+\log{\frac{3}{1000}})\times \frac{2}{3}$ （以正常邮件举例，如果正常邮件做了这个处理那么垃圾邮件也要做这个处理）

PS

以上为学习过程中的对网络上资料的内容整理及理解

芃之禾

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路

垃圾邮件识别任务中朴素贝叶斯分类算法的使用思路判断一个邮件是否是垃圾邮件：step1. 训练模型过程：1.计算先验概率：如现有200封正常邮件，100封垃圾邮件可得到：P(正常邮件)=200200+100=23P(正常邮件)=\frac{200}{200+100}=\frac{2}{3}P(正常邮件)=200+100200=32P(垃圾邮件)=100200+100=13P(垃圾邮件)=\frac{100}{200+100}=\frac{1}{3}P(垃圾邮件)=200+100100=31
复制链接

扫一扫