参考文献
- PRML
EM算法
核心思想(以混合高斯为例):样本 x x x是由多个混合高斯组成,若我们知道每个数据 x i x_i xi来自于哪个混合高斯(如第 k k k个),那么我们对所有属于类 k k k的 x i k x_{ik} xik使用极大似然估计就可以求得相应的参数。但是现在我们不知道样本 x i k x_{ik} xik中到底属于哪个 k k k,我们可以先根据当前的参数 θ \theta θ估计一个样本的类别向量 z i k z_{ik} zik(E步),使得在这个类别向量下我的总似然最大,然后我在这个类别向量的条件下用以前的极大似然方法估计我新的参数(M步)。重复迭代直至收敛。
-
Jession 不等式
- 对凸函数 f ( x ) f(x) f(x)来说,有下式成立(凹函数反向)
E [ f ( x ) ] ≥ f ( E [ x ] ) E[f(x)] \geq f(E[x]) E[f(x)]≥f(E[x]) - 等号成立条件:
x x x是常数
- 对凸函数 f ( x ) f(x) f(x)来说,有下式成立(凹函数反向)
-
原始问题似然函数推导:
l ( θ ) = ∑ i l o g ( P ( x i ; θ ) ) l(\theta)=\sum_i log(P(x_i;\theta)) l(θ)=∑ilog(P(xi;θ)) 对数似然定义
= ∑ i l o g ( ∑ z i P ( x i , z i ; θ ) ) =\sum_i log(\sum_{z_i} P(x_i,z_i;\theta)) =∑ilog(∑ziP(xi,zi;θ)) 将隐变量展开
= ∑ i l o g ( ∑ z i Q ( z i ) P ( x i , z i , θ ) Q ( z i ) ) =\sum_{i}log(\sum_{z_i}Q(z_i)\frac{P(x_i,z_i,\theta)}{Q(z_i)}) =∑ilog(∑ziQ(zi)Q(zi)P(xi,zi,θ)) ,其中 Q ( z i ) {Q(z_i)} Q(zi)是 z i z_i zi的分布(类似一个multinational的分布)- 若直接对上式进行极大似然估计,那么由于对数内侧求和符号的存在,所求偏导比较复杂。
- 观察对数项,其实是 P ( x i , z i , θ ) Q ( z i ) \frac{P(x_i,z_i,\theta)}{Q(z_i)} Q(zi)P(xi,zi,θ)对 Q Q Q分布的一个数学期望,又因为对数函数是凹函数,由jession不等式可得下界:
∑ i l o g ( ∑ z i Q ( z i ) P ( x i , z i , θ ) Q ( z i ) ) = ∑ i l o g ( E Q [ P ( x i , z i , θ ) Q ( z i ) ] ) \sum_{i}log(\sum_{z_i}Q(z_i)\frac{P(x_i,z_i,\theta)}{Q(z_i)}) =\sum_{i}log(E_Q[\frac{P(x_i,z_i,\theta)}{Q(z_i)}]) ∑ilog(∑ziQ(zi)Q(zi)P(xi,zi,θ))=∑ilog(EQ[Q(zi)P(xi,zi,θ)])
≥ ∑ i E Q [ l o g ( P ( x i , z i , θ ) Q ( z i ) ) ] \geq \sum_{i}E_Q[log(\frac{P(x_i,z_i,\theta)}{Q(z_i)})] ≥∑iEQ[log(Q(zi)P(xi,zi,θ))] (Jession 不等式)
= ∑ i ∑ z i Q ( z i ) l o g ( P ( x i , z i , θ ) ) Q ( z i ) ) =\sum_i\sum_{z_i}Q(z_i)log(\frac{P(x_i,z_i,\theta))}{Q(z_i)}) =∑i∑ziQ(zi)log(Q(zi)P(x