用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

Multiset

于 2023-03-17 14:30:38 发布

阅读量298

点赞数 1

文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/weixin_43221749/article/details/129619935

版权

解答思路:

贝叶斯估计的一般步骤（详见习题1.1第4步）；
证明公式4.11: 假设概率 $P_\lambda\left(Y=c_i\right)$ 服从狄利克雷（Dirichlet) 分布，根据贝叶斯公式，推导后验概率也服从Dirichlet分布，求参数期望；
证明公式4.10：证明同公式4.11。
解答步骤：
确定参数 $\theta$ 的先验概率 $p(\theta)$
根据样本集 $D=x_1, x_2, \ldots, x_n$ ，计算似然函数 $\mid \theta): P(D \mid \theta)=\prod_{i=1}^n P\left(x_n \mid D\right)$
利用贝叶斯公式，求 $\theta$ 的后验概率: $P(\theta \mid D)=\frac{P(D \mid \theta) P(\theta)}{\int_{\Theta} P(D \mid \theta) P(\theta) d \theta}$
计算后验概率分布参数 $\theta$ 的期望，并求出贝叶斯估计值: $\hat{\theta}=\int_{\Theta} \theta \cdot P(\theta \mid D) d \theta$
第2步：证明公式(4.11)
$P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda}, \quad k=1,2, \ldots, K$
证明思路：
条件假设: $P_\lambda\left(Y=c_k\right)=u_k$ ，且服从参数为 $\lambda$ 的Dirichlet分布; 随机变量 $Y$ 出现 $y=c_k$ 的次数为 $m_k$ ；
得到 $u$ 的先验概率 $P (u)$ ；
得到似然函数 $\mid u)$ ；
根据贝叶斯公式，计算后验概率 $\mid m)$
计算 $u$ 的期望 $E (u)$
证明步骤:
1.条件假设：根据朴素贝叶斯法的基本方法，训练数据集 $T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\}$ ，假设:
(1) 随机变量 $Y$ 出现 $y=c_k$ 的次数为 $m_k$ ，即 $m_k=\sum_{i=1}^N I\left(y_i=c_k\right)$ ，可知 $\sum_{k=1}^K m_k=N$ ( $y$ 总共有 $N$ 个）；
(2) $P_\lambda\left(Y=c_k\right)=u_k$ ，随机变量 $u_k$ 服从参数为 $\lambda$ 的Dirichlet分布。
得到先验概率
2.根据假设(2)和Dirichlet分布的定义，可得先验概率为
$P(u)=P\left(u_1, u_2, \ldots, u_K\right)=C(\lambda) \prod_{k=1}^K u_k^{\lambda-1}$
3 得到似然函数
记 $m=\left(m_1, m_2, \ldots, m_K\right)^T$ ，可得似然函数为
$\mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_K^{m_K}=\prod_{k=1}^K u_k^{m_k}$
4 得到后验概率分布
结合贝叶斯公式，求 $u$ 的后验概率分布，可得
$\mid m)=\frac{P(m \mid u) P(u)}{P(m)}$
根据假设(1)，可得
$\mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{k=1}^K u_k^{\lambda+m_k-1}$
上式表明，后验概率分布 $\mid m, \lambda)$ 也服从Dirichlet分布
5 得到随机变量 $u$ 的期望
根据后验概率分布 $\mid m, \lambda)$ 和假设(1)，求随机变量 $u$ 的期望，可得
$E\left(u_k\right)=\frac{\alpha_k}{\sum_{k=1}^K \alpha_k}$
其中 $\alpha_k=\lambda+m_k$ ，则
$\begin{aligned} E\left(u_k\right) & =\frac{\alpha_k}{\sum_{k=1}^K \alpha_k} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K\left(\lambda+m_k\right)} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K \lambda+\sum_{k=1}^K m_k} \quad\left(\because \sum_{k=1}^K m_k=N\right) \\ & =\frac{\lambda+m_k}{K \lambda+N}\left(\because m_k=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ & =\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda} \end{aligned}$
随机变量 $u_k$ 取 $u_k$ 的期望，可得 $P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda}$ ，公式(4.11)得证

*×第3步：证明公式(4.10) $}^{\star \star}$ :
$P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda}$
证明思路：

条件假设： $P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l$ ，其中 $\ldots, S_j$ ，且服从参数为 $\lambda$ 的Dirichlet分布; 出现 $x^{(j)}=a_{j l}, y=c_k$ 的次数为 $m_l$ ；
得到 $u$ 的先验概率 $P (u)$ ；
得到似然函数 $\mid u)$ ；
根据贝叶斯公式，计算后验概率 $\mid m)$
计算 $u$ 的期望 $E (u)$
证明步骤:
条件假设
根据朴素贝叶斯法的基本方法，训练数据集 $T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\}$ ，假设:
(1) 出现 $x^{(j)}=a_{j l}, y=c_k$ 的次数为 $m_l$ ，即 $m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)$ ，可知 $\sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right)$ (总共有 $\sum_{i=1}^N I\left(y_i=c_k\right)$ 个)；
(2) $P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l$ ，随机变量 $u_l$ 服从参数为 $\lambda$ 的Dirichlet分布。
得到先验概率
根据假设(2)和Dirichlet分布的定义，可得先验概率为
$P(u)=P\left(u_1, u_2, \ldots, u_{S_j}\right)=C(\lambda) \prod_{l=1}^{S_j} u_l^{\lambda-1}$
得到似然函数
记 $m=\left(m_1, m_2, \ldots, m_{S_j}\right)^T$ ，可得似然函数为
$\mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_{S_j}^{m_{S_j}}=\prod_{l=1}^{S_j} u_l^{m l}$
得到后验概率分布
结合贝叶斯公式，求 $u$ 的后验概率分布，可得
$\mid m)=\frac{P(m \mid u) P(u)}{P(m)}$
根据假设(1)，可得
$\mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{l=1}^{S_j} u_l^{\lambda+m_l-1}$
上式表明，后验概率分布 $\mid m, \lambda)$ 也服从Dirichlet分布
得到随机变量 $u$ 的期望
根据后验概率分布 $\mid m, \lambda)$ 和假设(1)，求随机变量 $u$ 的期望，可得
$E\left(u_k\right)=\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l}$
其中 $\alpha_l=\lambda+m_l$ ，则
$\begin{aligned} E\left(u_l\right) & =\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l} \\ & =\frac{\lambda+m_l}{\sum_{l=1}^{S_j}\left(\lambda+m_l\right)} \\ = & \frac{\lambda+m_l}{\sum_{l=1}^{S_j} \lambda+\sum_{l=1}^{S_j} m_l} \quad\left(\because \sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ = & \frac{\lambda+m_l}{S_j \lambda+\sum_{i=1}^N I\left(y_i=c_k\right)} \quad\left(\because m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)\right) \\ = & \frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} \end{aligned}$
随机变量 $u_k$ 取 $u_k$ 的期望，可得 $P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda}$ ，公式(4.10)得证。