EM算法似然函数的推导
现在要对似然函数
L(θ)=log∑zP(Y∣Z,θ)P(Z∣θ)
进行求解极大值,由于这里存在求和的形式,联想到期望的求和,这里是关于变量Z的期望,并且联想到和期望有关的不等式有Jensen不等式,因此引入Z的概率分布Q(z)作为期望中的变量X的概率分布,而剩下的作为期望中的自变量X。即似然函数如下变化。
L(θ)=log∑zQ(Z)P(Y∣Z,θ)P(Z∣θ)Q(Z)
Jensen不等式有这样的定义,对于一个函数f,如果这个函数是凸函数,也就是f的二阶导数大于0,那么存在
E[f(x)]≥f(E[X])
,如果这个函数是凹函数,也就是f的二阶导数小于0,那么存在
E[f(x)]≤f(E[X])
,如果这个函数是常值函数,那么存在
E[f(x)]=f(E[X])
。似然函数可以看成
log(E[X])
,由于对数函数的二阶导数小于0,因此
L(θ)≥∑zQ(Z)logP(Y∣Z,θ)P(Z∣θ)Q(Z)
现在想让式中的等号成立,那么必须保证X是常值函数,也就是
P(Y∣Z,θ)P(Z∣θ)Q(Z)=C
,这样可以获得
Q(Z)=1CP(Y∣Z,θ)P(Z∣θ)
由于Q(Z)是关于自变量X的概率分布,那么应该保证Q(Z)概率求和为1,即
C=∑zP(Y∣Z,θ)P(Z∣θ)
,因此可得
Q(Z)=P(Y∣Z,θ)P(Z∣θ)∑zP(Y∣Z,θ)P(Z∣θ)
这样根据逆概率公式
Q(Z)=P(Z∣Y,θ)
。
综上可得
L(θ)≥B(θ,θ)=∑zP(Z∣Y,θ)logP(Y,Z∣θ)P(Z∣Y,θ)
这里B的前一个参数是后验概率分布的参数,后一个参数是联合概率分布的参数,B是极大似然估计的下限函数。