【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

最新推荐文章于 2022-12-07 20:55:33 发布

韩曙亮

最新推荐文章于 2022-12-07 20:55:33 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘文章标签：贝叶斯公式邮件过滤数据挖掘先验概率似然概率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shulianghan/article/details/105624836

版权

数据挖掘专栏收录该内容

54 篇文章 43 订阅

订阅专栏

文章目录

I . 垃圾邮件过滤需求及表示方法

1 . 需求 : 收到一封邮件 , 判断该邮件是否是垃圾邮件 ;

2 . 表示方法 :

① 收到邮件 $D$ : $D$ 表示收到的邮件 , 其有一定的特征 , 如包含指定的单词等 ;

② 收到邮件 $D$ 的概率 : $D$ 是符合一定要求的邮件 , 不是每一个收到的邮件都有 $D$ 的特征 ;

③ 垃圾邮件 $H_0$ : 表示收到 $D$ 邮件是 $H_0$ 垃圾邮件 ; ( $H_0$ 泛指垃圾邮件 , 不是指某一封邮件 )

④ 正常邮件 $H_1$ : 表示收到 $D$ 邮件是 $H_1$ 正常邮件 ; ( $H_1$ 泛指正常邮件 , 不是指某一封邮件 )

II . 贝叶斯方法步骤 1 : 提出假设

1 . 提出假设 : 收到邮件事件是 $D$ , 该邮件是否是垃圾邮件 , 只有两个假设 , 是或否 ,

① 假设 $1$ : 假设收到的 $D$ 邮件是垃圾邮件 $H_0$ ;

② 假设 $2$ : 假设收到的 $D$ 邮件是正常邮件 $H_1$ ;

III . 贝叶斯方法步骤 2 : 计算垃圾邮件假设概率

1 . 计算该邮件是垃圾邮件的概率 :

① 需要计算的概率 : 收到邮件 $D$ 后 , 该邮件是垃圾邮件 $H_0$ , 概率是 $P(H_0|D)$ ;

② 问题 : 很明显 , 这个概率求不出来 ;

2 . 引入贝叶斯公式 :

① 逆向概率 ( 似然概率 | 条件概率 ) : 收到垃圾邮件后 , 该邮件是 $D$ 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;

② 先验概率 : 收到 $H_0$ 邮件的概率是已知的 ;

③ 后验概率 : 贝叶斯公式计算该邮件 $D$ 是垃圾邮件的概率 :

$P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}$

IV . 贝叶斯方法步骤 2 : 计算正常邮件假设概率

1 . 计算该邮件是正常邮件的概率 :

① 计算的概率 : 收到邮件 $D$ 后 , 该邮件是正常邮件 $H_1$ , 概率是 $P(H_1|D)$ ;

② 问题 : 很明显 , 这个概率求不出来 ;

2 . 引入贝叶斯公式 :

① 逆向概率 ( 似然概率 | 条件概率 ) : 收到正常邮件 $H_1$ 后 , 该邮件是 $D$ 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;

② 先验概率 : 收到 $H_1$ 邮件的概率是已知的 ;

③ 后验概率 : 贝叶斯公式计算该邮件 $D$ 是正常邮件的概率 :

$P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}$

V . 贝叶斯方法步骤 3 : 比较假设的概率

1 . 假设概率 : 提出了 $2$ 个假设 , 邮件 $D$ 是垃圾邮件的概率是 $P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}$ , 邮件 $D$ 是正常邮件的概率是 $P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}$ ;

2 . 比较概率忽略分母 : 比较上述两个概率 , 明显其分母都是 $P (D)$ , 可以不考虑分母因素 , 只比较分子 ;

3 . 比较分子 : 比较 $P(D|H_0)P(H_0)$ 和 $P(D|H_1)P(H_1)$ 两个值的大小 ;

VI . 先验概率 $P(H_1)$ 和 $P(H_0)$

1 . 先验概率 : $P(H_1)$ 代表收到正常邮件的概率 , $P(H_0)$ 代表收到垃圾邮件的概率 ;

2 . 获取这两个概率 : 从系统后台服务器中的邮件库中获取垃圾邮件和正常邮件比例即可 ;

VII . 似然概率 $P(D|H_1)$ 和 $P(D|H_0)$

1 . $P(D|H_1)$ 概率 : 表示收到正常邮件时 , 该邮是 $D$ 邮件的概率 , 即具有 $D$ 邮件的特征 ; 需要在当前邮件库中找到具有该邮件 $D$ 特征的邮件出现的概率 ;

2 . $P(D|H_0)$ 概率 : 表示收到垃圾邮件时 , 该邮是 $D$ 邮件的概率 , 即具有 $D$ 邮件的特征 ; 需要在当前邮件库中找到具有该邮件 $D$ 特征的邮件出现的概率 ;

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。