EM算法精解

最新推荐文章于 2024-09-14 10:13:03 发布

HailinPan

最新推荐文章于 2024-09-14 10:13:03 发布

阅读量362

点赞数

分类专栏：算法推导算法文章标签：算法

本文链接：https://blog.csdn.net/HailinPan/article/details/111473268

版权

算法推导同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

用大众能看懂的文字来详细剖析EM(Expectation-Maximum) 算法。

一、问题描述

有A，B，C三枚硬币，正面朝上的概率分别是a, b, c，是未知参数，也是EM算法要估的参数。现在对三枚硬币进行试验，先抛A硬币，若正面朝上，则抛B硬币，否则抛C硬币。如果抛B硬币或者C硬币时，正面朝上记为1，反面朝上记为0。此为一次试验。现重复进行10次如上的试验，记录观测值为：1, 0, 1, 1, 0, 1, 0, 1, 1, 1。问：a, b, c分别是多少？令 $θ$ =(a, b, c)。

二、变量定义

定义随机变量Xi为第i次试验的观测值，其中 $X_i \in \{0,1 \}, i=1,2,\ldots,10$ 。定义隐含随机变量 $Z_i$ 为第i次试验中A硬币正面朝上与否，其中 $Z_i\in \{0,1\}, i=1,2,\ldots,10$ ，当A硬币正面朝上， $Z_i$ 为1，否则为0。其中 $X_i$ 是已知， $Z_i$ 是未知。10次试验的观测值为 $x_i\in\{0,\ 1\},i=1,2,\ldots,10$ 。

三、似然函数

现有n=10个观测值，它们之间相互独立，故似然函数为：
$L\left(\theta\right)=\prod_{i=1}^{10}{p\left(X_i=x_i;\ \theta\right)=}\prod_{i=1}^{10} [ab^{x_i}(1-b)^{1-x_i} + (1-a)c^{x_i} (1-c)^{1-x_i}]$
对数似然函数为：
$l(\theta)= logL(\theta) = \sum_{i=1}^{10} log[ab^{x_i}(1-b)^{1-x_i} + (1-a)c^{x_i} (1-c)^{1-x_i}]$
我们的目标是求 $\theta$ ，也即a, b, c三个介于0-1的数字使得对数似然函数最大，即：
$\theta^*= \arg \max \limits_\theta l(\theta)$
这种多个对数里面求和的累加是很难通过求偏导来算解析极值的。于是用Jensen不等式来进行转换，把对数里面的求和提到外面。

$l(\theta) = logL(\theta) = log(\prod_{i=1}^{10}p(X_i = x_i; \theta)) \\ = log(\prod_{i=1}^{10}\sum_{z=0}^1p(X_i=x_i, Z_i=z; \theta)) \quad 全概率公式 \\ = \sum_{i=1}^{10} log(\sum_{z=0}^1 p(X_i=x_i, Z_i = z; \theta)) \\ = \sum_{i=1}^{10} log(\sum_{z=0}^1 B(Z_i=z; \theta) \frac{p(X_i=x_i, Z_i = z; \theta)}{B(Z_i=z; \theta)}) \\ 分子分母同乘B(Z_i=z; \theta)，其中 \sum_{z=0}^1 B(Z_i=z; \theta) =1\\ = \sum_{i=1}^{10} log[E_Z (\frac{p(X_i=x_i, Z_i ; \theta)}{B(Z_i; \theta)})] \\ \geq \sum_{i=1}^{10} E_Z(log(\frac{p(X_i=x_i, Z_i ; \theta)}{B(Z_i; \theta)})) \quad 根据Jensen不等式\\ = \sum_{i=1}^{10} \sum_{z=0}^1 B(Z_i=z; \theta) \log[\frac{p(X_i=x_i, Z_i=z; \theta)}{B(Z_i=z; \theta)}]$

若令 $B(Z_i=z; \theta) = p(Z_i=z|X_i=x_i; \theta), Z_i=0,1,i=1,2,\ldots,10$ 则上面等号成立（证明见附录一），即：
$l(\theta) = \sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i =z| X_i=x_i;\theta) \log [\frac{P(X_i=x_i, Z_i=z;\theta) }{p(Z_i=z|X_i=x_i;\theta)}]$
也就是说，我们的目标变成了求 $\theta$ ，使得上述 $l(\theta)$ 最大化，即：
$\theta^* = \arg \max \limits_\theta \sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i=z|X_i =x_i; \theta) log[\frac{p(X_i=x_i, Z_i=z; \theta)}{p(Z_i=z|X_i=x_i; \theta)}]$

四、迭代求参数

接下来用迭代的方法来求参数 $\theta$ 使得 $l(\theta)$ 最大化。

首先初始化 $\theta_j = \theta_0$ ，例如 $a = 0.4, b = 0.5, c = 0.6$ 。
则第 $j + 1$ 次迭代的 $\theta$ 如下：
$\theta_{j+1} = \arg \max \limits_\theta \sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i=z|X_i=x_i; \theta_j) log[\frac{p(X_i=x_i, Z_i =z; \theta)}{p(Z_i =z|X_i=x_i;\theta)}] \\ = \arg \max \limits_\theta \sum_{i=1}^{10} \sum_{z=0}^1 [p(Z_i=z_i|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=z; \theta) - p(Z_i=z_i|X_i=x_i; \theta_j) \log p(Z_I=z|X_i=x_i; \theta_j)]$
去掉和 $\theta$ 无关的项，得：
$\arg \max \limits_\theta \sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i=z_i|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=z; \theta)$
记 $\sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i=z_i|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=z; \theta)$ 为 $Q$ 函数，记作 $Q(\theta, \theta_j)$ 。因为 $Q(\theta, \theta_j) = \sum_{i=1}^{10} \sum_{z=0}^1 p(Z_i=z_i|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=z; \theta) =\sum_{i=1}^{10}E_Z[\log p(X_i=x_i, Z_i=z; \theta)]$ ，这就是EM算法中E的由来。
继而，求使得 $Q(\theta, \theta_j)$ 最大化的 $\theta_{j+1}$ ，即 $\theta_{j+1}= \arg \max \limits_\theta Q(\theta, \theta_j)$ ，这就是M的由来。
$Q(\theta, \theta_j) = \sum_{i=1}^{10} \sum_{z=0}^1 [p(Z_i=z|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=z; \theta)] \\ = \sum_{i=1}^{10} [p(Z_i=0|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=0; \theta) + p(Z_i=1|X_i=x_i; \theta_j) \log p(X_i=x_i, Z_i=1; \theta)] \\ =\sum_{i=1}^{10} [\frac{p(Z_i =0, X_i=x_i; \theta_j)}{p(X_i=x_i; \theta_j)} \log p(X_i=x_i, Z_i=0; \theta) + \frac{p(Z_i =1, X_i=x_i; \theta_j)}{p(X_i=x_i; \theta_j)} \log p(X_i=x_i, Z_i=1; \theta)] \quad 条件概率 \\ = \sum_{i=1}^{10} [\frac{p(Z_i =0, X_i=x_i; \theta_j)}{ \sum_{z=0}^1 p(X_i=x_i, Z_i = z; \theta_j) } \log p(X_i=x_i, Z_i=0; \theta) + \frac{p(Z_i =1, X_i=x_i; \theta_j)}{ \sum_{z=0}^1 p(X_i=x_i, Z_i = z; \theta_j) } \log p(X_i=x_i, Z_i=1; \theta)] \\ =\sum_{i=1}^{10} { \frac{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} }{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} + a_jb_j^{x_i}(1-b_j)^{1-x_i} } \log[(1-a_{j+1})c_{j+1}^{x_i}(1-c_{j+1})^{1-x_i}] + \\ \frac{ a_jb_j^{x_i}(1-b_j)^{1-x_i} }{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} + a_jb_j^{x_i}(1-b_j)^{1-x_i} } \log[a_{j+1}b_{j+1}^{x_i}(1-b_{j+1})^{1-x_i}] }$
令 $m_i= \frac{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} }{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} + a_jb_j^{x_i}(1-b_j)^{1-x_i} }, i=1,2,\ldots,10$ ，令 $n_i= \frac{ a_jb_j^{x_i}(1-b_j)^{1-x_i} }{ (1-a_j)c_j^{x_i}(1-c_j)^{1-x_i} + a_jb_j^{x_i}(1-b_j)^{1-x_i} }, i=1,2,\ldots,10$ ，有 $m_i+n_i=1, i=1,2,\ldots,10$

$Q$ 函数中 $a_j,b_j,c_j$ 是上一轮迭代的结果，是已知的。其中 $a_{j+1},b_{j+1},c_{j+1}$ 是未知参数，现在分别对它们求偏导并等于 $0$ 来求使 $Q$ 函数最大的 $a_{j+1},b_{j+1},c_{j+1}$ 。
$\frac {\partial Q(\theta, \theta_j)} { \partial a_{j+1}} = \sum_{i=1}^{10} (\frac{m_i}{a_{j+1}-1} + \frac{n_i}{a_{j+1}}) = \sum_{i=1}^{10} \frac{a_{j+1}m_i + a_{j+1}n_i -n_i} {(a_{j+1} -1 )a_{j+1}}$
令 $\frac {\partial Q(\theta, \theta_j)} { \partial a_{j+1}} =0$ 得： $a_{j+1}=\frac{1}{10} \sum_{i=1}^{10} n_i$ 。
又：
$\frac {\partial Q(\theta, \theta_j)} { \partial b_{j+1}} = \sum_{i=1}^{10}n_i \frac{a_{j+1}}{a_{j+1}b_{j+1}^{x_i} (1-b_{j+1})^{1-x_i} } (b_{j+1}^{x_i} (1-b_{j+1})^{1-x_i} ) \prime \\ =\sum_{i=1}^{10} n_i (\frac{x_i}{b_{j+1}} -\frac{1-x_i}{1-b_{j+1}}) \quad 根据求导乘法法则并化简$
令 $\frac {\partial Q(\theta, \theta_j)} { \partial b_{j+1}} =0$ 得： $b_{j+1} = \frac{\sum_{i=1}^{10} n_ix_i} { \sum_{i=1}^{10} n_i}$
同理可得： $c_{j+1} = \frac{\sum_{i=1}^{10} m_ix_i} { \sum_{i=1}^{10} m_i}$
4. 重复2，3两步，直至收敛，或者达到预设标准，最后的 $\theta$ 即为所求。

五、代码示例

import random
import math

a_true = 0.9 # A硬币正面朝上的概率是0.9
b_true = 0.1 # B硬币正面朝上的概率是0.1
c_true = 0.8 # C硬币正面朝上的概率是0.8
n = 5000 # 一共执行5000次试验

obs = []
for i in range(n):
    if random.random() <= a_true:
        obs.append(1) if random.random() <= b_true else obs.append(0)
    else:
        obs.append(1) if random.random() <= c_true else obs.append(0)
print(obs)
# 输出5000次试验的观察结果，1是正面朝上，0是 反面朝上
[1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, ...] 共5000个

# 初始化第一次的参数
thetaj = [0.45, 0.2, 0.98] # a0, b0, c0 = 0.45, 0.2, 0.98

# thetaj(s) are from the previous iteration or initialization
def em(thetaj, obs):
    m = []
    n = []
    for i in range(len(obs)):
        m_now = ( (1-thetaj[0])*math.pow(thetaj[2],obs[i])*math.pow(1-thetaj[2],1-obs[i]) )/( (1-thetaj[0])*math.pow(thetaj[2],obs[i])*math.pow(1-thetaj[2],1-obs[i]) + thetaj[0]*math.pow(thetaj[1],obs[i])*math.pow(1-thetaj[1],1-obs[i]) )
        m.append(m_now)
        n_now = 1 - m_now
        n.append(n_now)
  
    m_total, n_total, mx_total, nx_total = 0, 0, 0, 0
    for i in range(len(obs)):
        m_total += m[i]
        n_total += n[i]
        mx_total += m[i]*obs[i]
        nx_total += n[i]*obs[i]
  
    thetaj[0] = n_total/len(obs)
    thetaj[1] = nx_total/n_total
    thetaj[2] = mx_total/m_total

# 一共迭代1000次来估算参数
for j in range(1000):
    em(thetaj, obs)

print("Type: a,b,c")
print("True: " + str(a_true) + "," + str(b_true) + "," + str(c_true))
print("Initialization: " + str(a0) + "," + str(b0) + "," + str(c0))
print("Estimated: " + ",".join([str(i) for i in thetaj]))
# 输出
Type: a,b,c
True: 0.9,0.1,0.8
Initialization: 0.45,0.2,0.98
Estimated: 0.8250824695060178,0.030452224013034972,0.8602591368880216

六、扩展

类似的，可以扩展到其他分布类型，例如混合高斯。只需要根据分布来修改 $Q(\theta, \theta_j)$ 中的 $p(Z_i, X_i; \theta_j)$ 表达式，再分别对要估算的参数求偏导数就可以。例如现有某个年级100名学生的身高的测量值，要求估算出男生和女生身高的均值和方差，也即4个参数需要估计。假设男生和女生身高呈现正态分布。这里的 $Z$ 随机变量表示该观测值是来自男生还是女生，是一个 $0 - 1$ 分布。 $X$ 随机变量服从混合高斯分布。在给定 $Z$ 的前提下 $X$ 服从一维正态分布。

七、附录一

由Jensen不等式可知，若要上面的等号成立， $\frac{p(X_i=x_i, Z_i=z; \theta)}{B(Z_i=z; \theta)}$ 必须是一个常数。现在证明当 $B(Z_i=z; \theta) = p(Z_i=z|X_i=x_i; \theta), Z_i=0,1,i=1,2,\ldots,10, 且\sum_{z=0}^1 B(Z_i=z; \theta) =1$ 时， $\frac{p(X_i=x_i, Z_i=z; \theta)}{B(Z_i=z; \theta)}$ 是个常数。
设 $\frac{p(X_i=x_i, Z_i=z; \theta)}{B(Z_i=z; \theta)} = c$ ， $c$ 是任意一个常数，则：
$B(Z_i=z; \theta) = \frac {p(X_i=x_i, Z_i=z; \theta)} {c} = \frac {p(X_i=x_i, Z_i=z; \theta)} { \sum_{z=0}^1 c B(Z_i=z; \theta)} \\ = \frac {p(X_i=x_i, Z_i=z; \theta)} {\sum_{z=0}^1 p(X_i=x_i, Z_i=z; \theta)} \\ = \frac {p(X_i=x_i, Z_i=z; \theta)} {p(X_i=x_i; \theta)} \\ =p(Z_i=z|X_i=x_i; \theta)$
所以，当 $B(Z_i=z; \theta) = p(Z_i=z|X_i=x_i; \theta), Z_i=0,1,i=1,2,\ldots,10$ 时上述等号成立。