朴素贝叶斯原理与参数估计详解-CSDN博客

本文链接：https://blog.csdn.net/ifhuke/article/details/126822573

文章目录

1. 公式推导
2. 朴素贝叶斯参数估计
- 2.1 极大似然估计
- 2.2 贝叶斯估计

1. 公式推导

1.1 先验后验

先验概率：事件发生前的预判概率。可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。
后验概率：事件发生后求的反向条件概率；或者说，基于先验概率求得的条件概率。

1.2 条件概率公式

设有事件 $A, B$ ，将已知 $B$ 条件下求 $A$ 的概率记作 $P (A ∣ B)$ ，将 $A, B$ 两件事共同发生记作联合分布 $P (A, B)$ ，所有有下列条件概率公式： $\begin{aligned} P(A|B)=\frac{P(A,B)}{P(B)} \end{aligned}$ 也即 $\begin{aligned} P(A,B)=P(B)P(A|B) \end{aligned}$ 又因为假设条件独立性，故 $P (A, B) = P (B, A)$ ，所以带入上述公式可得 $\begin{aligned} P(A|B) &= \frac{P(B,A)}{P(B)} \\ \\ &= \frac{P(A)P(B|A)}{P(B)} \end{aligned}$ 这就是贝叶斯公式。

1.3 独立性假设

朴素贝叶斯假设条件概率是条件独立的，设 $X, x$ 都是 $n$ 维的向量， $X$ 是定义在空间的随机向量， $x$ 是输入， $Y$ 是类标记，有 $\in \{c_1,c_2, \cdots , c_n\}$ ，独立性可用下述公式来进行表达： $\begin{aligned} P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)}, \cdots,X^{(n)}=x^{(n)}|Y=c_k) \\ &= \prod^{n}_{j=1}P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}$ 其中的 $X^{(i)}=x^{(i)}$ 表示 $X, x$ 的第 $i$ 个维度相等。

1.3 朴素贝叶斯推导

由贝叶斯公式和条件概率公式有 $\begin{aligned} P(Y=c_k|X=x) &= \frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)} \\ \\ &= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_hP(X=x,Y=c_h)} \\ \\ &= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_hP(X=x|Y=c_h)P(Y=c_h)} \\ \end{aligned}$ 将式 $(4)$ 带入式 $(5)$ 可得到 $\begin{aligned} P(Y=c_k|X=x) &= \frac{P(Y=c_k) \prod_j{P(X^{(j)}=x^{(j)}|Y=c_k)}}{\sum_hP(Y=c_h)\prod_jP(X^{(j)}=x^{(j)}|Y=c_h)} \end{aligned}$ 这就是朴素贝叶斯的基本公式，所以其分类器可以表示为寻找一个最大的 $c_k$ ，即 $\begin{aligned} y=f(x)=\mathop{argmax}\limits_{c_k}\frac{P(Y=c_k) \prod_j{P(X^{(j)}=x^{(j)}|Y=c_k)}}{\sum_hP(Y=c_h) \prod_jP(X^{(j)}=x^{(j)}|Y=c_h)} \end{aligned}$ 由于对于一个给定的训练集，式 $(7)$ 的分母是不变的，故只需要使得分子最大即可，即 $\begin{aligned} y=\mathop{argmax}\limits_{c_k}{P(Y=c_k) \prod_j{P(X^{(j)}=x^{(j)}|Y=c_k)}} \end{aligned}$

2. 朴素贝叶斯参数估计

2.1 极大似然估计

在贝叶斯中，学习就意味着对 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 进行估计和最大化。很自然的能够想到极大似然估计。

首先对 $P(Y=c_k)$ ，其极大似然如下： $\begin{aligned} P(Y=c_k)= \frac{\sum^{N}_{i=1}I(y_i=c_k)}{N} \end{aligned}$ 即为数据中标签分类预测正确的数目百分比。

再对 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 进行极大似然估计，设第 $j$ 个特征 $x^{(j)}$ 的取值集合为 $\{ a_{j1}, a_{j2}, \cdots, a_{jn} \}$ ，所以其极大似然估计如下 $\begin{aligned} P(X^{(j)}=a_{jl}|Y=c_k)= \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)} \end{aligned}$ 具体例子在这里截取李航老师的《统计学习方法》来做理解：

在这里插入图片描述

2.2 贝叶斯估计

使用极大似然估计时，可能出现所要求的概率为 $0$ 的情况，该情况下就会十分影响其他概率的估计，故可以采用贝叶斯估计法。贝叶斯估计法描述如下： $\begin{aligned} P_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)= \frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)+ \lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j{\lambda}} \end{aligned}$ 当式中的 $\lambda =0$ 时，即是极大似然估计，当式中的 $\lambda =1$ 时，称之为拉普拉斯平滑。

同样的，先验概率 $P_{\lambda}(Y=c_k)$ 的表达如下： $\begin{aligned} P_{\lambda}(Y=c_k)= \frac{\sum^{N}_{i=1}I(y_i=c_k)+ \lambda}{N+K \lambda} \end{aligned}$ 具体例子在这里截取李航老师的《统计学习方法》来做理解：