EM算法、k-means、GMM

最新推荐文章于 2021-03-20 20:31:50 发布

SrdLaplaceGua

最新推荐文章于 2021-03-20 20:31:50 发布

阅读量526

点赞数 1

分类专栏：机器学习文章标签：机器学习统计学习 EM算法理论推导 GMM

本文链接：https://blog.csdn.net/SrdLaplace/article/details/80994114

版权

机器学习专栏收录该内容

57 篇文章 0 订阅

订阅专栏

EM算法针对是有隐藏变量的无监督问题。
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ （由隐藏变量 $Z$ 决定）， $P(Z|X, \theta)$ 和 $P(X|Z, \theta)$
求解：在损失函数 $L(X|\theta)$ 下的最优解 $Z, \theta$
理论推导：

L (X | θ) = l o g p (X | θ)

$L(X|\theta)=log~p(X|\theta)$

= l o g [\sum Z p (X, Z | θ)]

$=log[\sum_Zp(X,Z|\theta)]$

= l o g [\sum Z p (X | Z, θ) p (Z | θ)]

$=log[\sum_Zp(X|Z,\theta)p(Z|\theta)]$

= l o g [\sum Z p (Z | X, θ (i)) p ( X | Z , θ ) p ( Z | θ ) p ( Z | X , θ ( i ) )]

$=log[\sum_Zp(Z|X ,\theta^{(i)})\frac{p(X|Z,\theta)p(Z|\theta)} {p(Z|X,\theta^{(i)})}]$

\geq \sum Z p (Z | X, θ (i)) l o g [p ( X | Z , θ ) p ( Z | θ ) p ( Z | X , θ ( i ) )]

$\geq\sum_Zp(Z|X,\theta^{(i)})log[\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})}]$

最大化 $\sum_Zp(Z|X,\theta^{(i)})log[\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})}]$ ，显然 $\theta^{(i)}$ 单调递增（因为每次都是最大化下限，下限就是 $L(X|\theta^{(i)})$ ）
最大化下限这步叫做M步（maximization），求 $p(Z|X,\theta^{(i)})$ 这步叫E步骤（expectation）。

实例：
k-means
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ ； $\theta$ 为 $k$ 个中心点； $Z$ 为 $X$ 属于哪个中心， $P(Z|X, \theta)$ 为离那个中心近，相应的 $Z$ 的分量为1； $P(X, Z|\theta)$ 当 $\theta$ 为对应类别的中心时概率为1，其他概率为0。
LOSS： $X$ 距离最近类别的中心的距离和。
E步：求 $X$ 属于 $k$ 个中的那一类，即求 $Z$ 。
M步：求在 $X,Z$ 条件下 $\theta$ 的值。

Guass Mixture Model
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ ； $\theta$ 为 $k$ 个高斯分布和相应的权重； $P(Z|X, \theta)$ 为属于哪个高斯分布的概率； $P(X, Z|\theta)$ 当在 $X,Z$ 条件下，高斯分布的参数。
LOSS： $X$ 距离最近类别的中心的距离和。
E步：求 $X$ 对应的 $Z$
M步：求在 $X,Z$ 条件下 $\theta$ 的值。