朴素贝叶斯理论推导多项式分布利用极大似然估计进行参数估计

最新推荐文章于 2024-06-27 00:38:49 发布

Taneeyo

最新推荐文章于 2024-06-27 00:38:49 发布

阅读量2.6k

点赞数 7

分类专栏：机器学习文章标签：机器学习人工智能算法数据分析朴素贝叶斯算法

本文链接：https://blog.csdn.net/Taneeyo/article/details/110522162

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

朴素贝叶斯理论推导多项式分布与伯努利分布利用极大似然估计进行参数估计

（一）：贝叶斯定理

先从条件概率来看

$P(AB)=P(A\vert B)\times P(B)\\P(AB)=P(B\vert A)\times P(A)$
上式中，A,B事件同时发生的概率等于：

B发生时，A发生的概率乘B事件发生的概率。
或者可以说是A发生时，B发生的概率乘A事件发生的概率。

举个例子：
A：喝一杯牛奶，B：吃一块面包
P(A|B)：在吃一块面包的情况下，喝一杯牛奶的概率
此时若求P(AB)则要注意，P(A|B)是有条件存在的，但他的条件（吃一块面包）仍然存在发生的概率。那么P(AB)：既吃面包也喝了牛奶的概率就是先吃一块面包的概率乘上在这个条件下，喝了牛奶的概率。

由上面两个等式可知：
$P(A\vert B)=\frac{P(AB)}{P(B)}=\frac{P(B\vert A)\times P(A)}{P(B)}\\$
现在再引入全概率公式：
$P(B)=\sum_{i=1}^nP(B\vert A_i)\times P(A_i)\\$
则有：
$P(A\vert B)=\frac{P(B\vert A)\times P(A)}{{\displaystyle\sum_{i=1}^n}p(B\vert A_i)\times P(A_i)}\\$
这就是贝叶斯公式了。

（二）数据的定义

数据集：（i是数据集下标）
$X,Y)=\{\;\;(x_1,y_1)\;,\;(x_2,y_2)...(x_i,y_i)...(x_N,y_N)\;\}\\$
X是一个含有n维度（n个特征）的向量（下标是h）
$X\sqsubseteq\mathbb{R}^n\\X=(\omega_1，\omega_2.....\omega_h....\omega_n)\\$
这里注意，每个维度也存在多种的可能性的，现在我们规定每个维度 $\omega_h$ 有 $S_t$ 种可能性。
意思就是，比如X是一篇文章，w就是其中的某一个单词，而S_t就是这个单词可能出现的情况。w1 表示第一个单词，这个单词可能取值会有 Today、Hi、Hello等可能性。
$\omega_h=1,2...S_t...S_h\\$

Y是该变量X的分类情况，比如一篇文章的分类可能是小说、散文、诗歌等等。（下标用j表示）
$Y=\{c_1,c_2....c_j....c_k\}\\$

（二）朴素贝叶斯——多项式模型：

模型的目标：
首先这个模型解决的问题是分类问题。
朴素+贝叶斯：朴素的意思就是概率独立性，贝叶斯就是运用贝叶斯定理。合在一起就是朴素贝叶斯。
但是同逻辑回归、SVM不同，朴素贝叶斯模型是以概率角度出发去做出分类的。
分类的原理就是找一个概率最大化的思想。其实就是求 $P(Y\vert X)$ 在给我一个X（一篇文章）的情况下，求出他是哪个类型的概率最大。
比如它是散文的概率0.2、是小说的概率0.6、是诗歌的概率0.4。那么我们就说他是小说这个类别的。这就是这个模型的分类原理。

模型的求解：
根据上面说的，我们就是要求出 $P(Y\vert X)$ 这个就行了，但是直接没办法求，我们需要用到贝叶斯公式。现在将贝叶斯公式代入：
$P(Y=c_j\vert X=x_i)=\frac{P\left(X=x\vert Y=c_j\right)\times P\left(Y=c_j\right)}{P(X=x_i)}$
要算的就是给出一篇文章xi，它是cj类型的概率。

这里有几个名词：
先验概率：就是根据已有知识不用做推断和概率假设能得到的概率，比如有10篇文章按照6：4装在AB两个盒子里，A盒子里有三篇小说。先验就是问A中拿出一本小说类型的概率是多少。直接可以知道是3/5
后验概率：就是现在的知识得不到的，比如现在我们要求的，拿出一篇文章是小说问它是从A拿出来概率。
似然性：也就是上面式子分子的那个条件概率。

现在注意一个问题，我们是要找不同 $j$ 值下的 $P(Y=c_j\vert X=x_i)$ 中最大的那一个概率，而每一个 $j$ 值下的 $P(Y=c_j\vert X=x_i)$ 按照贝叶斯公式展开的分母都是 $P(X=x_i)$ ，所以只用比较他们的分子大小即可。

要求的概率转化为求一个条件概率和一个先验：
$P\left(X=x\vert Y=c_j\right)\;\\P\left(Y=c_j\right)$
先验我们是知道的，现在来看看这个条件概率：
先把X按n维展开
$P\left(X=x\vert Y=c_j\right)\;=P（W_1=\omega_1,W_2=\omega_2....W_n=\omega_n\;\vert\;Y=c_j)$
这里我们就有了大问题，w1，w2…wn这有n个维度呢。这里我们会得到很多参数，参数个数为：
$K\times\prod_{h=1}^nS_h\\$
因为每个维度都有很多可能性。这样给计算带来了巨大的麻烦。所以映入朴素的概念。
朴素就是一种假设，假设n维内任意两个维度之间是无关的. $\omega_{i\;}\perp\omega_j\;\left(\;\;i\neq j\;;\;\;\;i，j<n\right)\\$

这里举个例子：
$P (A B C) = P (A) P (B) P (C)$ 当且仅当ABC事件相互独立
这样子我们要求的参数个数就变成了： $K\sum_{h=1}^nS_h$ 不再是指数量级了

现在将要求的条件概率写成n维连乘的形式
$P\left(X=x\vert Y=c_j\right)\;=\prod_{h=1}^nP（W_h=\omega_h\;\vert\;Y=c_j）\\$
接着把单个维度的可能性也展开：
$P(W_h=\omega_h\vert Y=c_j)=\prod_{t=1}^{S_h}\;P{(\omega_h=S_{ht}\vert Y=c_j)}^{I\{\omega_h=S_{ht},Y=c_j\}}\;$
为了简化参数（参数就是不知道的概率，就是上面说过的先验和这个条件概率）
$P(W_h=\omega_h\vert Y=c_j)=\prod_{t=1}^{S_h}\;\theta_{ht}^{I\{\omega_h=S_{ht},Y=c_j\}}\\$
条件概率最终化简为：
$P(X=x\vert Y=c_j)=\prod_{h=1}^n\prod_{t=1}^{S_h}\;\theta_{ht}^{I\{\omega_h=S_{ht},Y=c_j\}}\\$

（三）多项式模型 MLE 最大似然估计：

最大似然函数：
（现在要估计的参数就是先验和条件概率，为了方便，就简写为参数）
$\mathcal l(\mathrm{参数})=\log\prod_{i=1}^N P(XY)$
现在用之前的概率公式转换为
$\Rightarrow\log \prod_{i=1}^N P(X\vert Y)\times P(Y)$
n维展开特征维度
$\Rightarrow\log\prod_{i=1}^N\;\;\begin{bmatrix}\prod_{h=1}^nP(W_j^i=\omega_j^i\;\vert Y=c_j)\end{bmatrix}\times P(Y)$
此时 P(Y)可以用先验参数化
$P(Y)=\prod_{j=1}^KP{(Y=c_j)}^{\boldsymbol I\boldsymbol\{\boldsymbol Y\boldsymbol={\boldsymbol c}_{\mathbf j}\boldsymbol\}}\\$
$P(Y)=\prod_{j=1}^K\pi_j^{\boldsymbol I\boldsymbol\{\boldsymbol Y\boldsymbol={\boldsymbol c}_{\mathbf j}\boldsymbol\}}$

走到这里，我们简化得到了两个参数 $\pi_j\;\;\theta_{ht}$ ,现在继续用MLE估计它们
$\Rightarrow\log\prod_{i=1}^N\;\;\begin{bmatrix}\prod_{h=1}^nP(W_j^i=\omega_j^i\;\vert Y=c_j)\end{bmatrix}\times\prod_{j=1}^KP{(Y=c_j)}^{I\{Y=c_j\}}\;$
将参数带入：
$\Rightarrow\log\prod_{i=1}^N\;\left[\;\begin{bmatrix}\prod_{h=1}^n\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{bmatrix}\times\prod_{j=1}^K\pi_j^{I\{Y=c_j\}}\right]$
$\Rightarrow\sum_{i=1}^N\;\left[\log\;\begin{bmatrix}\prod_{h=1}^n\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{bmatrix}+\log\prod_{j=1}^K\pi_j^{I\{Y=c_j\}}\right]$
$\Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\log\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{array}+\sum_{j=1}^K{\log\pi_j}^{I\{Y=c_j\}}\right]$
$\Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\sum_{t=1}^{S_h}\log\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{array}+\sum_{j=1}^K{\log\pi_j}^{I\{Y=c_j\}}\right]$
利用对数性质
$\Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\sum_{t=1}^{S_h}I\{\omega_j=S_{ht},Y=c_j\}\times\log\theta_{ht}^{}\end{array}+\sum_{j=1}^KI\{Y=c_j\}\times{\log\pi_j}\right]$
到这一步，最大似然函数已经化简到一个很好的状态了。
现在附上我们的约束项
$\left\{\begin{array}{l}\sum_{j=1}^K\pi_j=1\;\\\\\\\sum_{t=1}^S\theta_{ht}=1\;\end{array}\right.$
带有约束项的极值求解可以通过拉格朗日乘数法方便求解
$L(\theta_{ht},\pi_j)=\mathcal l(\theta_{ht},\pi_j)+\alpha\left(1-\sum_{j=1}^K\pi_j\right)+\sum_{h=1}^n\beta(1-\overset{S_h}{\underset{t=1}{\sum\theta_{ht}}})$
现在对两个参数求导并置为0

对于 $pi_j$ :

$\\\frac{\partial L(\theta_{ht},\pi_j)}{\partial\pi_j}=\frac{\partial\begin{bmatrix}{\displaystyle\sum_{i=1}^N}{\displaystyle\sum_{j=1}^K}I\{Y=c_j\}\log\pi_j+\alpha\left(1-\sum_{j=1}^K\pi_j\right)\end{bmatrix}}{\partial\pi_j}=0$
$\Rightarrow\sum_{j=1}^K\left[\sum_{i=1}^N\frac{I\{Y=c_j\}}{\pi_j}-\alpha\right]=0$
$\Rightarrow\sum_{i=1}^N\frac{I\{Y=c_j\}}{\pi_j}-\alpha=0$

对于 $\theta_{ht}$ :
$\Rightarrow\frac{\partial\left[{\displaystyle\sum_{i=1}^N}{\displaystyle\sum_{h=1}^n}{\displaystyle\sum_{t=1}^{S_h}}I\{{\omega^i}_j=S_{ht},Y=cj\}\times log\theta_{ht}+\sum_{h=1}^n\beta_h(1-\overset{S_h}{\underset{t=1}{\sum\theta_{ht}}})\right]}{\partial\theta_{ht}}=0$
${\partial\theta_{ht}}=0\\\Rightarrow\sum_{h=1}^n\sum_{t=1}^{S_h}\left[\sum_{i=1}^N\frac{I\{{\omega^i}_j=S_{ht},Y=cj\}}{\theta_{ht}}-\beta_h\right]=0$
${\partial\theta_{ht}}=0\\\Rightarrow\sum_{i=1}^N\frac{I\{{\omega^i}_j=S_{ht},Y=cj\}}{\theta_{ht}}-\beta_h=0$
综上：
$\Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}}\alpha\\\\\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\beta_h}\end{array}\right.$
现在联立约束项和偏微分结果

$\Rightarrow\left\{\begin{array}{l}\alpha=\frac{\sum_{i=1}^NI\{Y=c_j\}}{\pi_j}=\frac{{\displaystyle\sum_{j=1}^K}\sum_{i=1}^NI\{Y=c_j\}}{\sum_{j=1}^K\pi_j}=\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}\\\beta_h=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\theta_{ht}}=\frac{\displaystyle\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}}{\sum_{t=1}^{S_j}\theta_{ht}}=\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}\end{array}\right.$
$\Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}}{\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}}=\frac{N_j}N=\frac{N_{c_j\mathrm{类型的文章数}}}{N_{\mathrm{样本总数}}}\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}}=\frac{N_{第c_j\mathrm{类单词}\omega_j\mathrm{出现的个数}}}{N_{第c_j\mathrm{类单词所有单词出现的个数}}}\end{array}\right.$

（四）拉普拉斯平滑

为了避免乘0 或除0的情况，
$\Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}+1}{\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}+K}\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}+1}{\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}+S_j}\end{array}\right.$

总结：由此，我们得到了很好的估计参数 $\theta_{ht}$ 和 $\pi_j$ 可以把他们带入后验的概率表达式中，输入一个未知样本X,最后得到类别可能性最大的那个类别，即为最终输出。

Taneeyo

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
朴素贝叶斯理论推导多项式分布利用极大似然估计进行参数估计

朴素贝叶斯理论推导多项式分布与伯努利分布利用极大似然估计进行参数估计（一）：贝叶斯定理先从条件概率来看P(AB)=P(A∣B)×P(B)P(AB)=P(B∣A)×P(A)P(AB)=P(A\vert B)\times P(B)\\P(AB)=P(B\vert A)\times P(A)P(AB)=P(A∣B)×P(B)P(AB)=P(B∣A)×P(A)上式中，A,B事件同时发生的概率等于：B发生时，A发生的概率乘B事件发生的概率。或者可以说是A发生时，B发生的概率乘A事件发生的概率。举
复制链接

扫一扫