朴素贝叶斯：分母相对于所有类别为常数

最新推荐文章于 2022-09-18 09:20:01 发布

SZU_Hadooper

最新推荐文章于 2022-09-18 09:20:01 发布

阅读量2.1k

点赞数

分类专栏： machine learning 文章标签：朴素贝叶斯

本文链接：https://blog.csdn.net/SZU_Hadooper/article/details/77150555

版权

machine learning 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

这句话理解：
由于朴素贝叶斯是一个生成模型，用来做分类器使用。
假设总共的类别是 $\{C_k\}$ 类，那么假设一封邮件判断它是不是垃圾邮件, $C_k=\{0,1\}$
0代表正常邮件，1代表垃圾邮件。
假设一封邮件 $X=\{x^{(1)},x^{(2)},x^{(3)}....x^{(n)}\}$
先验概率：
朴素贝叶斯假设条件独立这样就可以概率相乘：
$P(X=x|Y=c_k)=\prod_{j = 1}^nP(X=x^{(1)},X=x^{(2)}...X=x^{(n)}|Y=c_k)$
= $\prod_{j = 1}^nP(X=x^{(j)}|Y=C_k)$

根据贝叶斯公式：
$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

邮件分类：
这封邮件是 $c_k$ 类的概率
$P(Y=C_k|X=x)=\frac{P(Y=C_k)\prod{P(X=x_i|Y=C_k)}}{P(X)}=\frac{P(Y=C_k)\prod{P(X=x_i|Y=C_k)}}{\sum_kP(Y=C_k)\prod{P(X=x_i|Y=C_k)}}$
$P(X)就是X集合的联合概率分布$
y1是指正常邮件的概率；要y2是指垃圾邮件的概率
$y1=\frac{P(Y=0)\prod{P(X=x_i|Y=0)}}{P(Y=0)\prod{P(X=x_i|Y=0)}+P(Y=1)\prod{P(X=x_i|Y=1)}}$

$y1=\frac{P(Y=1)\prod{P(X=x_i|Y=1)}}{P(Y=0)\prod{P(X=x_i|Y=0)}+P(Y=1)\prod{P(X=x_i|Y=1)}}$
分母是相同的所以只需要比较分子，哪个大分到哪一类。

$P(Y=0)=\frac{\sum I(y=0)}{N}$ 正常邮件占总共邮件N的比值。
${P(X=x|Y=0)}=\prod_{j = 1}^nP(X=x^{(j)}|Y=0)=\prod_{j = 1}^n{\frac{\sum I(X=x^{(j)},y=0)}{\sum I(Y=0)}}$
上面这俩式其实式最大似然估计的结果。
所以朴素贝叶斯是MAP和极大似然估计的结合（类别( $\theta$ )参数估计是MAP,最大似然估计出 $p(Y=c_k),p(X=x_i|Y=c_k)$ ）。