Chapter 11 EM算法

桑之未落0208

已于 2022-08-04 10:26:45 修改

阅读量200

点赞数

分类专栏：机器学习——算法进阶文章标签： html 前端

于 2022-08-03 09:06:00 首次发布

本文链接：https://blog.csdn.net/qwertyuiop0208/article/details/126115293

版权

机器学习——算法进阶专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文探讨了概率模型中的Jensen不等式在参数估计中的应用，特别是在高斯分布和高斯混合模型（GMM）中的角色。通过EM算法推导了高斯分布的参数估计过程，并介绍了模型选择的准则，如AIC和BIC。此外，还提及了pLSA模型和其在主题建模中的应用。

摘要由CSDN通过智能技术生成

1 复习

Jensen不等式：

假设f为凸函数：

$f(\theta x+(1-\theta )y) \leq \theta f(x) +(1-\theta )f(y)$

若 $\theta_{1} ,\theta_{2} ,...\theta_{k}\geq 0,\theta _{1}+\theta _{2}+...+\theta _{k}=1$ ，则 $f(\theta _{1}x_{1}+...+\theta _{k}x_{k})\leq \theta _{1}f(x_{1})+...+\theta _{k}f(x_{k})$
若 $p(x)\geq 0 on S\subseteq dom f, \int_{S}^{}p(x)dx=1$ ，则 $f(\int_{S}^{}p(x)xdx)\leq \int_{S}^{}f(x)p(x)dx$
综上所述： $f(Ex)\leq Ef(x)$

2 推导

问题：若给定一组样本 $x_{1},x_{2}...x_{n}$ ，已知它们来自于高斯分布 $N(\mu ,\sigma )$ ，试估计参数 $\mu ,\sigma$ 。

过程分析：高斯分布的概率密度函数： $f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$ ，将 $X_{i}$ 的样本值 $x_{i}$ 代入，得到：

$L(x)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}$ ，然后化简对数似然函数 $l(x)=log\prod_{i}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=(\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma })+(\sum_{i}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})=-\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2}$

讨论：目标函数为 $l(x) = -\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2}$ ，然后对参数 $\mu ,\sigma$ 分别求偏导，得到： $\left\{\begin{matrix} \mu =\frac{1}{n}\sum_{i}x_{i}\\ \sigma ^{2}=\frac{1}{n}\sum_{i}(x_{i}-\mu )^{2} \end{matrix}\right.$ ，即样本的均值是高斯分布的均值，样本的伪方差是高斯分布的方差。

3 高斯混合模型（GMM模型）

随机变量X是有K个高斯分布混合而成，取各个高斯分布的概率为 $\pi _{1},\pi _{2},...,\pi _{K}$ ，第i个高斯分布的均值为 $\mu _{i}$ ，方差为 $\sum_{i}$ 。若观测到随机变量X的一系列样本 $x_{1},x_{2},...,x_{n}$ ，试估计 $\pi ,\mu ,\sum$ 。

首先，建立目标函数

由于该对数函数比较复杂，无法直接求导。所以，分成两部分进行：

step1:估算数据来自哪个组份。

step2:估计每个组份的参数

4 EM算法的提出

假定有训练集 $\left \{ x^{(1)},x^{(2)},...,x^{(m)} \right \}$ ，包含 $m$ 个独立样本，希望从中找到该组数据的模型 $p(x,z)$ 的参数。

step1:取对数似然函数 $l(\theta )=\sum_{i=1}^{m}logp(x;\theta )=\sum_{i=1}^{m}log\sum_{z}p(x,z;\theta )$

step2:提出问题：不方便求参数估计？

step3:利用Jensen不等式

说明最后的不等式：

忽略求和，令 $\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=x$ ，不等式变为 $log\sum_{z^{(i)}}Q_{i}(z^{(i)})x\geq \sum_{z^{(i)}}Q_{i}(z^{(i)})logx$

即 $logE_{Q}(x)\geq E(logx)$

为了使等号成立：

$\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=c$

EM算法推导高斯分布：

E-step:

第i个样本属于第j个组份的概率

M-step:

对均值 $\mu$ 求偏导：

高斯分布求得均值：

同上面求均值做法，求得高斯分布的偏差：

多项分布的参数

拉格朗日乘子法

上式 $-\beta =m$ 的具体推导：

由求偏导公式，化简得： $\sum_{i=1}^{m}w_{i}^{j}+\beta \phi _{j}=0$

将j展开再合并得到： $\sum_{i=1}^{m}\sum_{j=1}^{k}w_{j}^{i}+\beta \sum_{j=1}^{k}\phi _{j}=0$

因为 $\sum_{j=1}^{k}\phi _{j}=1$

所以 $m+\beta =0$

总结：

6 pLSA模型

基于概率统计的pLSA模型（概率隐语义分析），增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型系数。

D——文档，Z——主题（隐含类别）W——单词

$P(d_{i})$ 表示文档 $d_{i}$ 的出现概率。

$P(z_{k}|d_{i})$ 表示文档 $d_{i}$ 中主题 $z_{k}$ 的出现概率。

$P(w_{j}|z_{k})$ 表示给定主题 $z_{k}$ 出现单词 $w_{j}$ 的概率。

每个主题在所有词项上服从多项分布，每个文档在所有主题上服从多项分布。

整个文档的生成过程是：先以 $P(d_{i})$ 的概率选中文档，然后以 $P(z_{k}|d_{i})$ 的概率选中主题，最后以 $P(w_{j}|z_{k})$ 的概率产生单词。

观测数据为 $(d_{i},w_{j})$ 时，主题 $z_{k}$ 是隐含变量。

$(d_{i},w_{j})$ 的联合分布为： $P(d_{i},w_{j})=P(w_{j}|d_{i})P(d_{i})$ ， $P(w_{j}|d_{i})=\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})$

令 $w_{j}$ 在 $d_{i}$ 中出现的次数 $n(d_{i},w_{j})$

所以 $L=\prod_{i=1}^{N}\prod_{j=1}^{M}P(d_{i},w_{j})=\prod_{i}\prod_{j}P(d_{i},w_{j})^{n(d_{i},w_{j})}$

对其取对数：

$l=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(d_{i},w_{j})=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(w_{j}|d_{i})P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i}))P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})P(d_{i}))$

7 模型选择的准则

模型选择问题主要是寻找平衡模型的复杂性和模型对数据集描述能力之间的平衡，有以下两种。

L为模型下的样本的似然函数值，k为模型中位置参数的个数（维度），n为样本个数。

AIC：最小信息量准则 $AIC=-2lnL+2k$ 衡量模型拟合优良性的标准，AIC越小，模型越简洁，模型越好。
BIC：贝叶斯信息准则 $BIC=-2lnL+(lnn)k$ ,BIC越小，模型越好。BIC弥补了AIC的不足，当样本数量过多时，对于模型参数个数的惩罚项k，因为加入了 $ln(n)$ 考虑了样本数量，从而可以避免模型精度过高造成模型复杂度过高。