09. EM

最新推荐文章于 2023-01-07 18:24:42 发布

「已注销」

最新推荐文章于 2023-01-07 18:24:42 发布

阅读量120

点赞数

分类专栏：机器学习推导

本文链接：https://blog.csdn.net/CCjiahao/article/details/112061764

版权

机器学习推导专栏收录该内容

10 篇文章 0 订阅

订阅专栏

算法思路

之前所遇到的模型，大多是求 $\hat\theta=\arg\max_\theta P(X,y|\theta)$ ，但是在一些存在隐变量的模型中，表达式 $P(X,y|\theta)$ 难以求解析解，所以可以通过一个迭代的算法求出其解，这个迭代的算法就称为EM算法。

算法流程

确定初始参数 $\theta^{(0)}$
计算 $Q(\theta,\theta^{(i)})$
$\begin{aligned} Q(\theta, \theta^{(i)}) &= \mathbb E_{P(Z|X,\theta^{(i)})}[\log P(X,Z|\theta)] \end{aligned}$
求解 $\theta^{(i+1)}=\arg\max_\theta Q(\theta,\theta^{(i)})$

收敛性证明

我们只需要证明 $P(X|\theta^{(i+1)})>P(X|\theta^{(i)})$ 即可。
$\begin{aligned} P(Z|X,\theta) *P(X|\theta) &= P(X,Z|\theta)\\ \log P(X|\theta) &= \log P(X,Z|\theta) - \log P(Z|X,\theta)\\ \mathbb E_{P(Z|X,\theta^{(i)})} \log P(X|\theta) &= \mathbb E_{P(Z|X,\theta^{(i)})} \log P(X,Z|\theta) - \mathbb E_{P(Z|X,\theta^{(i)})} \log P(Z|X,\theta)\\ \log P(X|\theta) &= \mathbb E_{P(Z|X,\theta^{(i)})} \log P(X,Z|\theta) - \mathbb E_{P(Z|X,\theta^{(i)})} \log P(Z|X,\theta)\\ \log P(X|\theta) &=Q(\theta, \theta^{(i)}) - \mathbb E_{P(Z|X,\theta^{(i)})} \log P(Z|X,\theta) \end{aligned}$
所以 $D\_value = \log P(X|\theta^{(i+1)})-\log P(X|\theta^{(i)})$ 的值为：
$\begin{aligned} D\_value &= Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)}) + \mathbb E_{P(Z|X,\theta^{(i)})}\log \frac{P(Z|X, \theta^{(i)})}{P(Z|X, \theta^{(i+1)})}\\ &= Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)}) + D_{KL}(P(Z|X,\theta^{(i)})\| P(Z|X,\theta^{(i+1)})) \end{aligned}$
由于 $Q(\theta^{(i+1)},\theta^{(i)})=\max Q(\theta,\theta^{(i)}) \ge Q(\theta^{(i)},\theta^{(i)})$ ，又因为差值 $D\_value\ge 0$ ，所以算法收敛。

算法导出

虽然我们知道EM算法流程，但是我们不知道如何导出EM算法。
仿照贝叶斯神经网络时的推导，我们假设 $Z\sim q(Z)$ ，那么我们对等式 $\log P(X|\theta) = \log P(X,Z|\theta) - \log P(Z|X,\theta)$ 求期望得：
$\begin{aligned} \log P(X|\theta) &=\log P(X,Z|\theta) - \log P(Z|X,\theta)\\ &= \log \frac{P(X,Z|\theta)}{q(Z)} - \log \frac{P(Z|X,\theta)}{q(Z)}\\ &= \mathbb E_{q(Z)}\log \frac{P(X,Z|\theta)}{q(Z)}-D_{KL} (q(Z)\|P(Z|X,\theta)) \end{aligned}$
我们知道当 $q(Z)=P(Z|X,\theta)$ 时， $D_{KL}=0$ 。令 $q(Z)=P(Z|X,\theta)$ 得：
$\begin{aligned} \log P(X|\theta) &=\mathbb E_{P(Z|X,\theta)}\log \frac{P(X,Z|\theta)}{P(Z|X,\theta)} \end{aligned}$
但是这一步仍然不可解，所以采用迭代算法策略： $\log P(X|\theta) =\mathbb E_{P(Z|X,\theta^{(i)})}\log \frac{P(X,Z|\theta)}{P(Z|X,\theta^{(i)})}$ ，由于 $\log$ 下面得分母与优化过程无关，所以略去。
所以导出EM算法。

代码实现

import numpy as np
import random

def load_data(mus, sigmas, alphas, length):
    assert(len(mus) == len(sigmas) and len(mus) == len(alphas))
    lengths = [round(length * alpha) for alpha in alphas]
    data = []
    for mu, sigma, length in zip(mus, sigmas, lengths):
        data.extend(np.random.normal(mu, sigma, length))
    random.shuffle(data)
    return np.array(data)


def gaussian(data, mu, sigma):
    return np.exp(-(data - mu)**2 / 2 / sigma**2) / np.sqrt(2 * np.pi) / sigma


def train(data, mus, sigmas, alphas, epochs):
    for epoch in range(epochs):
        gammas, gamma_sum = [], 0
        for alpha, mu, sigma in zip(alphas, mus, sigmas):
            gamma = alpha * gaussian(data, mu, sigma)
            gammas.append(gamma)
            gamma_sum += gamma
        for i in range(len(mus)):
            gammas[i] /= gamma_sum
            mus[i] = np.dot(gammas[i], data) / np.sum(gammas[i])
            sigmas[i] = np.sqrt(np.dot(gammas[i], (data - mus[i])**2) / np.sum(gammas[i]))
            alphas[i] = np.sum(gammas[i]) / len(gammas[i])
    return mus, sigmas, alphas


if __name__ == '__main__':
    mus, sigmas, alphas = [0.7, 0.5], [1, 2], [0.3, 0.7]
    data = load_data(mus, sigmas, alphas, 10000)
    mus, sigmas, alphas = train(data, [0, 1], [1, 1], [0.5, 0.5], 10000)
    print(mus, sigmas, alphas)

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
09. EM

算法思路之前所遇到的模型，大多是求θ^=arg⁡max⁡θP(X,y∣θ)\hat\theta=\arg\max_\theta P(X,y|\theta)θ^=argmaxθP(X,y∣θ)，但是在一些存在隐变量的模型中，表达式P(X,y∣θ)P(X,y|\theta)P(X,y∣θ)难以求解析解，所以可以通过一个迭代的算法求出其解，这个迭代的算法就称为EM算法。算法流程确定初始参数θ(0)\theta^{(0)}θ(0)计算Q(θ,θ(i))Q(\theta,\theta^{(i)})Q(θ,
复制链接

扫一扫