朴素贝叶斯参数推导（纯数学）

最新推荐文章于 2024-03-25 01:37:13 发布

是大侠诶

最新推荐文章于 2024-03-25 01:37:13 发布

阅读量430

点赞数

分类专栏：机器学习文章标签：机器学习数据分析大数据概率论

本文链接：https://blog.csdn.net/qq_41563601/article/details/106149302

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

朴素贝叶斯推导参数推导

1 问题回顾

基于贝叶斯的垃圾邮件分类，主要原理是通过对原始邮件数据的分析得出一种模型。根据邮件中单词的内容符合不同标签的概率积的大小，来判断邮件所属的标签类型。

基于贝叶斯的垃圾邮件分类中，计算是某邮件是正常邮件的概率，所用到的公式如（１-１）所示。
$P(w_1,w_2,w_3,....w_n|正常)×P(正常)=P(正常)×\prod_{i=1}^nP(w_i|正常) \tag{1-1}$
以上的有两个需要计算，我们默认是这样计算的,如公式（1-2）和公式（1-3）所示。

$P(正常)=\frac{正常邮件的个数}{正常邮件的个数+垃圾邮件的个数} \tag{1-2}$
$P(w_i|正常)=\frac{正常邮件下w单词出现的次数}{正常邮件下单词的总数} \tag{1-3}$

2.开始推导

设有邮件数据集 $D=\{(X_i,Y_i)\}$
其中 $X_i和Y_i$ 分别表示邮件以及其标签（正常，垃圾）并用1，0 表示。
此外，每一个 $\ X 可分解为单词集合$ $w_1,w_2.....w_{m_i}$ ,其中 $m_i$ 是该文档的单词个数。

2.1构造目标函数

原式（1-1）可化为如下公式（2-1）。

我们认为每个单词之间是独立存在的（这就是朴素贝叶斯的朴素之处）。根据条件独立公式得：

$\prod_{i=0}^n~~\{~\prod_{j=0}^{m_i} P(w_j|y_i)\cdot P(y_i)~\} \tag{2-1}$
取公式(2-1)部分,作如下转化：
$\prod_{j=0}^{m_i} P(w_j|y_i) \Rightarrow \prod_{j=0}^{V} P(w_j|y_i)^{n_{i,j}} \tag{2-2}$
由于我们改为遍历字典，设字典的长度为V。 $n_{ij}$ 表示第 $X_i$ 邮件中，包含 $w_j$ 单词的个数。如果单词不存在， $n_{i,j} =0 ，则 P(w_i|y_i)^0=1$ ，所以真正有效的值，还是 $X_i$ 邮件中，包含的单词。所以箭头两边成立。这看似等价的操作，却为以后提供了巨大遍历。具体什么遍历稍后再说，单说回公式（２-１）。
公式（２-１），经过公式（２-２）的变形之后变成如下形式：
$\prod_{i=0}^n~~\{~\prod_{j=0}^{V} P(w_j|y_i)^{n_{i,j}} \cdot P(y_i)~\} \tag{2-3}$

2.2 化简目标函数

下面求其最大值,由于ｌｏｇ函数的单调递增性。取对数后，最大值位置不变。
$\log [P(D)]$
由ｌｏｇ函数性质可得
$\sum_{i=0}^n~~\{~\sum_{j=0}^{V}~n_{i,j} \cdot \log P(w_j|y_i) + \log P(y_i)~\}$

由于这个是二分类问题，我们可以穷举分类，并用ｋ表示。如ｋ＝０　表示垃圾邮件；ｋ＝１　表示正常邮件。于是得公式(2-4)

$\sum_{k=0}^1 ~~~\sum_{i=(y_i=k)}~~\{~\sum_{j=0}^{V}~n_{i,j} \cdot \log P(w_j|y_i=k) + \log P(y_i=k)~\}\tag{2-4}$

令
$\ \theta_{i,k}= P(w_j|y_i=k) ，k=0,1$
$\ \pi_k= P(y_i=k)，k=0,1$

结合公式（２-４）,使用最大似然估计（MLE )，得到目标函数(2-5)。
$\theta_{MLE} ,\pi_{MLE}=argmax_{\{\theta,\pi\}}\sum_{k=0}^1 ~~~\sum_{i=(y_i=k)}~~\{~\sum_{j=0}^{V}~n_{i,j} \cdot \log \theta_{i,k}+ \log \pi_k~\}\tag{2-5}$

拆分得公式（２-5）得
$\theta_{MLE} ,\pi_{MLE}=argmax_{\{\theta,\pi\}} \sum_{k=0}^1 ~~~\sum_{i=(y_i=k)}~~~\sum_{j=0}^{V}~n_{i,j} \cdot \log \theta_{i,k}+ \sum_{k=0}^1 ~~~\sum_{i=(y_i=k)} \log \pi_k~\tag{2-6}$

由于 $\ \sum_{i=(y_i=k)}$ 表示所有取Ｋ值的邮件，不妨令 ${ｎ_ｋ}$ 表示取ｋ的邮件数。
$\sum_{i=(y_i=k)} \log \pi_k=n_k\cdot \log \pi_k$

代入公式（２-６）得，我们最终的目标函数，如公式（２-７）所示。
$\theta_{MLE} ,\pi_{MLE}=argmax_{\{\theta,\pi\}} \sum_{k=0}^1 ~~~\sum_{i=(y_i=k)}~~~\sum_{j=0}^{V}~n_{i,j} \cdot \log \theta_{i,k}+ \sum_{k=0}^1 n_k\cdot \log \pi_k~\tag{2-7}$
此外，还有两条约束条件
$\ \sum_{k=0}^1 \pi_k=1 \tag{s.t.-1}$
$\sum_{j=0}^V \theta_{j,k}=1 ，k=0,1\tag{s.t.-2}$

2.3 拉格朗日乘数法

根据公式(2-7)、（s.t.-1）和（s.t.-1）结合构建拉格朗日函数。
$F(\theta,\pi,\lambda)=\sum_{k=0}^1 ~~\sum_{i=(y_i=k)}~~\sum_{j=0}^{V}~n_{i,j} \cdot \log \theta_{i,k}+ \sum_{k=0}^1 n_k\cdot \log \pi_k+\lambda\cdot ( \sum_{k=0}^1 \pi_k-1 )+\sum_{k=0}^1 \lambda_k\cdot (\sum_{j=0}^V \theta_{j,k}-1) \tag{2-8}$

2.3.1 对 $\theta$ 求偏导

对 $\theta$ 求偏导,只要保留和 $\ \theta$ 相关的项即可，
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \theta} =\frac{\partial \{\sum_{k=0}^1 ~~\sum_{i=(y_i=k)}~~\sum_{j=0}^{V}~n_{i,j} \cdot \log \theta_{i,k}+ \sum_{k=0}^1 \lambda_k\cdot (\sum_{j=0}^V \theta_{j,k}-1) \}}{\partial \theta}$
为了方便计算，我们只考虑单方向，即忽略k和j的取值，仅仅使用k和j表示某个方向。
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \theta} =\frac{\partial \{ ~~\sum_{i=(y_i=k)} n_{i,j} \cdot \log \theta_{i,k}+ \lambda_k\cdot ( \theta_{j,k}-1) \}}{\partial \theta}$
求导得
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \theta} =\sum_{i=(y_i=k)} \frac {n_{i,j} } {\theta_{i,k}}+ \lambda_k$
令导数为零，求得驻点，如公式（2-9）
$\theta _{j,k}=-\frac{1}{\lambda_k } \cdot\sum_{i=(y_i=k)} n_{i,j}\tag{2-9}$

代入（s.t.-2）得

$\sum_{j=0}^V \theta_{j,k}=\sum_{j=0}^V (-\frac{1}{\lambda_k } \cdot\sum_{i=(y_i=k)} n_{i,j} )=1$
从而
$\lambda_k=-\sum_{j=0}^V \sum_{i=(y_i=k)} n_{i,j}\tag{2-10}$
代入到公式（２-９）得，
$\theta _{j,k}=\frac{\sum_{i=(y_i=k) }n_{i,j} } {\sum_{j=0}^V~~~~~~ \sum_{i=(y_i=k)} n_{i,j}}$
这也是我们开始所说的
$P(w_i|正常)=\frac{正常邮件下w单词出现的次数}{正常邮件下单词的总数}$

2.3.2 对 $\pi$ 求偏导

对 $\pi$ 求偏导,只要保留和 $\ \pi$ 相关的项
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \pi} =\frac{\partial \{\sum_{k=0}^1 n_k\cdot \log \pi_k+\lambda\cdot ( \sum_{k=0}^1 \pi_k-1 ) \}}{\partial \pi}$
为了方便计算，我们只考虑单方向，即忽略k和j的取值，仅仅使用k和j表示某个方向。
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \pi} =\frac{\partial \{ n_k\cdot \log \pi_k+\lambda\cdot ( \pi_k-1 ) \}}{\partial \pi}$
求导得
$\frac{\partial F(\theta,\pi,\lambda)}{\partial \pi} = \frac {n_k } {\pi_k}+ \lambda$
令导数为零，求得驻点
$\pi_{k}=-\frac{ n_k}{\lambda } \tag{2-11}$

代入（s.t.-1）得

$\sum_{k=0}^1 \pi_k=\sum_{k=0}^1 -\frac{ n_k}{\lambda }=1$
从而
$\lambda =-\sum_{k=0}^1 n_k\tag{2-12}$
代入到公式（2-11）得
$\pi_k=\frac{ n_k}{\sum_{k=0}^1 n_k}$
这也是我们开始所说的