Chapter 11 EM算法

本文探讨了概率模型中的Jensen不等式在参数估计中的应用,特别是在高斯分布和高斯混合模型(GMM)中的角色。通过EM算法推导了高斯分布的参数估计过程,并介绍了模型选择的准则,如AIC和BIC。此外,还提及了pLSA模型和其在主题建模中的应用。
摘要由CSDN通过智能技术生成

1 复习

Jensen不等式:

假设f为凸函数:

f(\theta x+(1-\theta )y) \leq \theta f(x) +(1-\theta )f(y)  

  • \theta_{1} ,\theta_{2} ,...\theta_{k}\geq 0,\theta _{1}+\theta _{2}+...+\theta _{k}=1,则f(\theta _{1}x_{1}+...+\theta _{k}x_{k})\leq \theta _{1}f(x_{1})+...+\theta _{k}f(x_{k})
  • p(x)\geq 0 on S\subseteq dom f, \int_{S}^{}p(x)dx=1,则f(\int_{S}^{}p(x)xdx)\leq \int_{S}^{}f(x)p(x)dx
  • 综上所述:f(Ex)\leq Ef(x)

2 推导 

问题:若给定一组样本x_{1},x_{2}...x_{n},已知它们来自于高斯分布N(\mu ,\sigma ),试估计参数\mu ,\sigma

过程分析:高斯分布的概率密度函数:f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}},将X_{i}的样本值x_{i}代入,得到:

L(x)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}},然后化简对数似然函数l(x)=log\prod_{i}\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}}=(\sum_{i}log\frac{1}{\sqrt{2\pi }\sigma })+(\sum_{i}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})=-\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2}

讨论:目标函数为l(x) = -\frac{n}{2}log(2\pi \sigma ^{2})-\frac{1}{2\sigma ^{2}}\sum_{i}(x_{i}-\mu )^{2},然后对参数\mu ,\sigma分别求偏导,得到:\left\{\begin{matrix} \mu =\frac{1}{n}\sum_{i}x_{i}\\ \sigma ^{2}=\frac{1}{n}\sum_{i}(x_{i}-\mu )^{2} \end{matrix}\right.,即样本的均值是高斯分布的均值,样本的伪方差是高斯分布的方差。

3 高斯混合模型(GMM模型)

随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为\pi _{1},\pi _{2},...,\pi _{K},第i个高斯分布的均值为\mu _{i},方差为\sum_{i}。若观测到随机变量X的一系列样本x_{1},x_{2},...,x_{n},试估计\pi ,\mu ,\sum

首先,建立目标函数

 由于该对数函数比较复杂,无法直接求导。所以,分成两部分进行:

step1:估算数据来自哪个组份。

step2:估计每个组份的参数

 4 EM算法的提出

假定有训练集\left \{ x^{(1)},x^{(2)},...,x^{(m)} \right \},包含m个独立样本,希望从中找到该组数据的模型p(x,z)的参数。

step1:取对数似然函数l(\theta )=\sum_{i=1}^{m}logp(x;\theta )=\sum_{i=1}^{m}log\sum_{z}p(x,z;\theta )

step2:提出问题:不方便求参数估计?

 step3:利用Jensen不等式

 说明最后的不等式:

忽略求和,令\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=x,不等式变为log\sum_{z^{(i)}}Q_{i}(z^{(i)})x\geq \sum_{z^{(i)}}Q_{i}(z^{(i)})logx

logE_{Q}(x)\geq E(logx)

为了使等号成立:

\frac{p(x^{(i)},z^{(i)};\theta )}{Q_{i}(z^{(i)})}=c

 EM算法推导高斯分布: 

E-step:

第i个样本属于第j个组份的概率

 M-step:

对均值\mu求偏导:

高斯分布求得均值:

 同上面求均值做法,求得高斯分布的偏差:

多项分布的参数

拉格朗日乘子法

 上式-\beta =m的具体推导:

由求偏导公式,化简得:\sum_{i=1}^{m}w_{i}^{j}+\beta \phi _{j}=0

将j展开再合并得到:\sum_{i=1}^{m}\sum_{j=1}^{k}w_{j}^{i}+\beta \sum_{j=1}^{k}\phi _{j}=0

因为\sum_{j=1}^{k}\phi _{j}=1

所以m+\beta =0

总结:

6 pLSA模型

基于概率统计的pLSA模型(概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型系数。

 D——文档,Z——主题(隐含类别)W——单词

P(d_{i})表示文档d_{i}的出现概率。

P(z_{k}|d_{i})表示文档d_{i}中主题z_{k}的出现概率。

P(w_{j}|z_{k})表示给定主题z_{k}出现单词w_{j}的概率。

每个主题在所有词项上服从多项分布,每个文档在所有主题上服从多项分布。

整个文档的生成过程是:先以P(d_{i})的概率选中文档,然后以P(z_{k}|d_{i})的概率选中主题,最后以P(w_{j}|z_{k})的概率产生单词。

观测数据为(d_{i},w_{j})时,主题z_{k}是隐含变量。

(d_{i},w_{j})的联合分布为:P(d_{i},w_{j})=P(w_{j}|d_{i})P(d_{i})P(w_{j}|d_{i})=\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})

w_{j}d_{i}中出现的次数n(d_{i},w_{j})

所以L=\prod_{i=1}^{N}\prod_{j=1}^{M}P(d_{i},w_{j})=\prod_{i}\prod_{j}P(d_{i},w_{j})^{n(d_{i},w_{j})}

对其取对数:

l=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(d_{i},w_{j})=\sum_{i}\sum_{j}n(d_{i},w_{j})logP(w_{j}|d_{i})P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i}))P(d_{i})=\sum_{i}\sum_{j}n(d_{i},w_{j})log(\sum_{k=1}^{K}P(w_{j}|z_{k})P(z_{k}|d_{i})P(d_{i}))

 

 

 

7 模型选择的准则

模型选择问题主要是寻找平衡模型的复杂性和模型对数据集描述能力之间的平衡,有以下两种。

L为模型下的样本的似然函数值,k为模型中位置参数的个数(维度),n为样本个数。

AIC:最小信息量准则AIC=-2lnL+2k衡量模型拟合优良性的标准,AIC越小,模型越简洁,模型越好。
BIC:贝叶斯信息准则BIC=-2lnL+(lnn)k,BIC越小,模型越好。BIC弥补了AIC的不足,当样本数量过多时,对于模型参数个数的惩罚项k,因为加入了ln(n)考虑了样本数量,从而可以避免模型精度过高造成模型复杂度过高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值