朴素贝叶斯及其数学推导

最新推荐文章于 2025-05-06 16:18:38 发布

cvrszeng

最新推荐文章于 2025-05-06 16:18:38 发布

阅读量2.5k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：贝叶斯机器学习-数学推导

本文链接：https://blog.csdn.net/cvrszeng/article/details/52336093

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了朴素贝叶斯分类器的基本原理及其条件独立性假设，并详细推导了其参数估计过程，包括极大似然估计和贝叶斯估计两种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、朴素贝叶斯简单介绍

朴素贝叶斯成立的前提是条件独立性假设：分类的特征 $x_i$ 在类别确定的条件下都是独立的，用公式表示如下：
$\begin{aligned} P(X=x_i|Y=c_k) &= P(X=x_i^1,X=x_i^2,\cdots,X=x_i^n|Y=c_k) \\ & = \prod_{j=1}^{n}P(X^{(j)}=x_i^{j}|Y=c_k) \end{aligned}$
其中 $c_k$ 是类别，假设有K个类，n是样本的维度， $x_i$ 是输入样本

朴素贝叶斯法表示如下：
$y=arg\,\max_{c_k}P(Y=c_k) \prod_{j=1}^{n}P(X^{(j)}=x_i^{j}|Y=c_k)$

二、贝叶斯决策论

介绍朴素贝叶斯中最大化后验概率的来源
朴素贝叶斯选择0-1损失函数作为评价标准，0-1损失函数表示如下：
$\begin{cases} 0,& \text{Y = f(X)} \\ 1,& \text{Y $\neq$ f(X)} \end{cases}$
其中 $f (X)$ 是分类决策函数
期望损失： $R_{exp}(f)=E(L(Y,f(x)))$ ,显然对每个样本 $x$ 最小化条件风险，则期望损失最小，下面证明期望损失最小化等价于后验概率最大化：
$\begin{aligned} f(x) &=arg \,\min_{y \in \mathcal Y}\sum_{k=1}^{K}L(c_k,y)P(y=c_k|X=x) \\ &=arg \,\min_{y \in \mathcal Y}\sum_{k=1}^{K}P(y \neq c_k|X=x) \\ &=arg \,\min_{y \in \mathcal Y}\sum_{k=1}^{K}(1-P(y=c_k|X=x) )\\ &=arg \,\max_{y \in \mathcal Y}\sum_{k=1}^{K}P(y=c_k|X=x) \end{aligned}$
得到后验概率最大化准则：
$\,\max_{y \in \mathcal Y}\sum_{i=1}^{K}P(y=c_k|X=x)$
其中 $,cK}\mathcal Y=\{c_1,c2, \cdots,c_K\}$ , $K$ 是类别个数

三、参数估计

方法1：极大似然估计

下面先给出结果，再证明
先验概率估计：

$P(Y=c_k)={ {\sum_{i=1}^{n}I(y_i=c_k)} \over {N} }$
条件概率估计：

$P(X^{(j)}=a_{jl}|Y=c_k)={ {\sum_{i=1}^{n}I(X_i^{(j)}=a_{jl},y_i=c_k)} \over { \sum_{i=1}^{n}I(y_i=c_k) } }$
其中 $,n,l=1,2,⋯Sjk=1,2,\cdots,K,j=1,2,\cdots,n,l=1,2,\cdots S_j$
$,ajSj}x^{(j)} \in \{a_{j1},a_{j2},\cdots,a_{jS_j}\}$

下面给出证明：
1、估计先验概率 $P(c_k)$
令 $,K}P(Y=c_k)=\theta_k,k \in \{1,2,\cdots ,K\}$
则 $P(Y)=∏k=1KθkI(Y=ck)P(Y)=\prod_{k=1}^{K} \theta_k^{I(Y=c_k)}$
那么对数似然函数表示如下：

$\begin{aligned} L(\theta) &=\log(\prod_{i=1}^{n}P(Y=y_i)) \\ &=\log(\prod_{i=1}^{n}\prod_{k=1}^{K}\theta_k^{I(Y_i=c_k)}) \\ &=\log(\prod_{k=1}^{K}\theta_k^{N_k}) \\ &=\sum_{k=1}^{K}N_k \log \theta_k \end{aligned}$

其中 $N_k$ 是样本类别为 $c_k$ 的样本数目
又因为 $∑k=1Kθk=1\sum_{k=1}^{K}\theta_k=1$ ,所以拉格朗日函数可以表示为：
$L(\theta_k,\lambda)=\sum_{k=1}^{K}N_k \log \theta_k+ \lambda (\sum_{k=1}^{K}\theta_k-1)$
拉格朗日函数对 $θk\theta_k$ 求偏导可得：
$\partial L(\theta_k,\lambda) \over {\theta_k} }={ N_k \over \theta_k}+\lambda=0 \Rightarrow N_k=-\lambda \theta_k$
对上式求和可得：
$\sum_{k=1}^{K}=N_k=-\lambda\sum_{k=1}^{k}\theta_k \Rightarrow N=-\lambda \Rightarrow \theta_k=\frac {N_k}{N} \quad得证$

1、估计条件概率 $P(X^{(j)}=a_{jl}|y=c_k)$

令 $P(X(j)=ajl∣y=ck)=θkjlP(X^{(j)}=a_{jl}|y=c_k)=\theta_{kjl}$
$P(X(j)=ajl∣y=ck)=θkjl=∏k=1K∏j=1n∏l=1SjθkjlI(X(j)=ajl)P(X^{(j)}=a_{jl}|y=c_k)=\theta_{kjl}=\prod_{k=1}^{K}\prod_{j=1}^{n}\prod_{l=1}^{S_j}\theta_{kjl}^{I(X^{(j)}=a_{jl})}$
似然函数表示如下：
$\begin{aligned} l(\theta) &=\prod_{i=1}^{N_K}(\prod_{k=1}^{K}\prod_{j=1}^{n}\prod_{l=1}^{S_j}\theta_{kjl}^{I(X^{(j)}_i=a_{jl})} ) \\ & =\prod_{k=1}^{K}\prod_{j=1}^{n}\theta_{kjl}^{N_{kjl}} \end{aligned}$
其中 $N_{kjl}$ 表示数据集中属于类 $c_k$ ,且样本的第 $j$ 维度取值为 $a_{jl}的个数$
所以对数似然函数表示如下：
$L(\theta)=\sum_{k=1}^{K}\sum_{j=1}^{n}N_{kjl} \log \theta_{kjl}$
又因为 $∑l=1Sjθkjl=1\sum_{l=1}^{S_j}\theta_{kjl}=1$
拉格朗日函数可以表示为：
$L(\theta,\lambda)=\sum_{k=1}^{K}\sum_{j=1}^{n}N_{kjl} \log \theta_{kjl}+\lambda(\sum_{l=1}^{S_j}\theta_{kjl}-1)$
$⇒∂L(θ,λ)∂θkjl=Nkjlθkjl−λ=0\Rightarrow \frac {\partial L(\theta,\lambda)} {\partial \theta_{kjl}} =\frac {N_{kjl}}{\theta_{kjl}}-\lambda=0$
$⇒∑l=1SjNkjl=λ∑l=1Sjθkjl=λ\Rightarrow \sum_{l=1}^{S_j}N_{kjl}=\lambda \sum_{l=1}^{S_j}\theta_{kjl}=\lambda$
$⇒λ=Nk\Rightarrow \lambda =N_k$
$⇒θkjl=NkjlNk\Rightarrow \theta_{kjl}=\frac {N_{kjl}}{N_k}$ , 得证

方法2：贝叶斯估计

贝叶斯估计是为了解决极大似然估计中可能存在的所要估计的概率值为0的情况
先验概率估计：
$P(Y=c_k)={ {\sum_{i=1}^{n}I(y_i=c_k)+\lambda} \over {N+K\lambda} }$
条件概率估计：
$P(X^{(j)}=a_{jl}|Y=c_k)={ {\sum_{i=1}^{n}I(X_i^{(j)}=a_{jl},y_i=c_k)}+\lambda \over { \sum_{i=1}^{n}I(y_i=c_k) } +S_j\lambda}$
其中 $,n,l=1,2,⋯Sjk=1,2,\cdots,K,j=1,2,\cdots,n,l=1,2,\cdots S_j$
$,ajSj}x^{(j)} \in \{a_{j1},a_{j2},\cdots,a_{jS_j}\}$