《统计学习方法》第四章朴素贝叶斯总结与习题

Hilbob

已于 2022-11-18 15:28:28 修改

阅读量616

点赞数

分类专栏：统计学习方法文章标签：学习方法概率论朴素贝叶斯

于 2022-11-14 19:43:09 首次发布

本文链接：https://blog.csdn.net/qq_42714262/article/details/127852366

版权

统计学习方法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

朴素贝叶斯
定义：朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。

1.贝叶斯公式推导

首先有条件概率公式如下：
$P(A|B)=\frac{P(AB)}{P(B)},P(B|A)=\frac{P(AB)}{P(A)}$
其中 $P (A B)$ 为联合概率，两式消去 $P (A B)$ 所以有
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
通过条件概率我们可以得到贝叶斯公式如下：
$P(Y=c_k|X=x)=\frac{P(X=x,Y=c_k)}{P(X=x)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}$
给定训练集 $T=(x_1,y_1),(x_2,y_2),..,(x_N,y_N)$ ，设类别可选数目为K，即 $c_1,c_2,...,c_K$ ，特征维度为m，即 $x_i=(x^1_i,x^2_i,...x^m_i)$ ，第j维的特征可取值数目为 $S_j$ ，分别为 $a^1_j,a^2_j,...,a^{S_j}_j$ 。
贝叶斯的思想就是通过训练数据学习联合分布P(X,Y)，具体地，学习以下先验概率和条件概率：

先验概率(也就是类别概率)

$P(Y=c_k),k=1,2,...,K$

条件概率(也就是确定某类别的前提下某特征的概率)

$P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^N=x^N|Y=c_k),k=1,2,...,K$
通过上述的条件概率公式可以得到联合概率分布

联合概率(先验概率与条件概率乘积)

$P(X=x,Y=c_k)=P(Y=c_k)P(X=x|Y=c_k)$
由全概率公式可以得到
$P(X=x)=P(X=x|Y=c_1)P(Y=c_1)+,...,+P(X=x|Y=c_k)P(Y=c_k)\\=\sum \limits_{i=1}^KP(X=x|Y=c_i)P(Y=c_i)$

为了降低模型的复杂度，对贝叶斯公式作了条件独立性的假设，因此叫做朴素贝叶斯
通过条件独立性假设，可以很方便计算条件概率：
$P(X=x|Y=c_k)=\prod \limits_{j=1}^NP(X^j=x^j|Y=c_k)$
由于朴素贝叶斯学习到了联合概率分布，因此为生成模型。
对于后验概率 $P(Y=C_k|X=x)$ ，带入上述先验概率和条件概率由贝叶斯公式有：
$P(Y=c_k|X=x)=\frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)} \\=\frac{P(Y=c_k)\prod \limits_{j=1}^NP(X^j=x^j|Y=c_k)}{P(X=x)}\\ =\frac{P(Y=c_k)\prod \limits_{j=1}^NP(X^j=x^j|Y=c_k)}{\sum \limits_{i=1}^KP(X=x|Y=c_i)P(Y=c_i)}\\ =\frac{P(Y=c_k)\prod \limits_{j=1}^NP(X^j=x^j|Y=c_k)}{\sum \limits_{i=1}^KP(Y=c_i)\prod \limits_{j=1}^NP(X^j=x^j|Y=c_i)}$
选取后验概率最大的类别作为预测的样本类别，由于对于同一个样本的所有类别，上式分子相同，因此朴素贝叶斯最后预测的类别可以表示为：
$y=\underset{c_k}{{\arg\max} \, } P(Y=c_k)\prod \limits_{j=1}^NP(X^j=x^j|Y=c_k)$

2.贝叶斯的参数估计

极大似然估计

$P(Y=c_k)=\frac{\sum \limits_{i=1}^NI(y_i=c_k)}{N},k=1,2,...,K$
$P(X^j=a^l_j|Y=c_k)=\frac{\sum \limits_{i=1}^NI(x^j_i=a^l_j,y_i=c_k)}{\sum \limits_{i=1}^NI(y_i=c_k)},l=1,2,...,S_j$
其中I是指示函数。

增加平滑项

$P(Y=c_k)=\frac{\sum \limits_{i=1}^NI(y_i=c_k)+\lambda}{N+\lambda K},k=1,2,...,K$
$P(X^j=a^l_j|Y=c_k)=\frac{\sum \limits_{i=1}^NI(x^j_i=a^l_j,y_i=c_k)+\lambda}{\sum \limits_{i=1}^NI(y_i=c_k)+\lambda S_j},l=1,2,...,S_j$
λ 为平滑因子，通常取1，这时称为拉普拉斯平滑。