因子分析（一）- EM算法求解

XiaooooooBawang

已于 2022-05-18 16:45:09 修改

阅读量621

点赞数 1

文章标签：算法概率论机器学习

于 2022-05-18 16:30:20 首次发布

本文链接：https://blog.csdn.net/qq_45493596/article/details/124845440

版权

系列文章

〇、前言

EM算法（Expectation Maximization Algorithm，期望最大化算法）是一种主要用来求解参数极大似然估计的非常简单实用的学习算法。该算法是一种迭代算法，常用于含有隐变量的概率参数模型的最大似然估计或极大后验估计。当模型似然函数的解析解无法直接求出时，可使用该算法得到模型参数的局部最优解。

一、Jensen不等式

我们先简单介绍Jensen不等式，学过高数（高中数学）的人都能很容易理解。对于一个凸函数 $f$ ，如果它有二阶导数，且二阶导恒大于等于0， $f''\geq0$ ,对于随机变量 $X$ ，则有

$E[f(X)] \geq f(E(X)) \\$

这条式子就是Jensen不等式，当且仅当 $p(X=E(X))=1$ ，即 $X$ 为常量时，上式取等号。Jensen不等式应用于凹函数时，不等号的方向反向。

二、EM算法

假设给定训练样本 $\{X_{1},X_{2},···,X_{N}\}$ ，各样本之间是独立同分布的。我们希望找到训练样本所隐含的类别 $\{Z_{1},Z_{2},···,Z_{M}\}$ ，最大化 $p(X,Z)$ ，这样可以写出模型的最大似然估计如下：

$\begin{aligned} l(\boldsymbol{\theta}) &=\sum_{i=1}^{N} \log p\left(\mathbf{X}_{i} \mid \boldsymbol{\theta}\right) \\ &=\sum_{i=1}^{N} \log \sum_{\mathbf{Z}_{i}} p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right) \end{aligned} \\$

这里 $Z_{i}$ 是离散的，如果是连续的就把求和号换成积分号

下面开始EM算法的推导

对于每个样本 $X_{i}$ ，假设 $Q_{i}(Z_{i})$ 表示该样本所对应的隐含变量 $Z_{i}$ 的某种分布，并满足以下条件：

$\sum_{Z_{i}}{Q_{i}}(Z_{i})=1\\ {Q_{i}}(Z_{i})\geq0\\$

将 $Q_{i}(Z_{i})$ 引入似然函数中，并考虑到似然函数是凹函数，根据Jensen不等式可得：

$\begin{aligned} l(\boldsymbol{\theta}) &=\sum_{i=1}^{N} \log \sum_{\mathbf{Z}_{i}} p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right) \\ &=\sum_{i=1}^{N} \log \sum_{\mathbf{Z}_{i}} Q_{i}\left(\mathbf{Z}_{i}\right) \frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)} \\ & \geq \sum_{i=1}^{N} \sum_{\mathbf{Z}_{i}} Q_{i}\left(\mathbf{Z}_{i}\right) \log \frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)} \end{aligned} \\$

第二步到第三步运用了Jensen不等式，具体是：

（1）数学期望就是 $E(g(x))=\prod_{k=1}^{\infty}g(x_{k})p_{k}$ , 第二步的 $\sum_{\mathbf{Z}_{i}} Q_{i}\left(\mathbf{Z}_{i}\right) \frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)}$ 可以看做随机变量为 $Q_{i}(Z_{i})$ ，概率分布函数为 $\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)}$ 的期望，即：

$\sum_{\mathbf{Z}_{i}} Q_{i}\left(\mathbf{Z}_{i}\right) \frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)} =E_{Z_{i}\sim Q_{i}}(\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)}) \\$

(2)运用Jensen不等式，因为 $f(y)=log(y)$ ，是凹函数，则有：

$f(E_{Z_{i}\sim Q_{i}}[\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)}])\geq E_{Z_{i}\sim Q_{i}}[f(\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)})] \\$

根据我们之前在上面说到的，要让等号成立

$\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)} =C(常数)\\$

即

$p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)=C*{Q_{i}\left(\mathbf{Z}_{i}\right)} \\$

两边求和，因为 $\sum_{Z_{i}}{Q_{i}}(Z_{i})=1$ ，得

$C=\sum_{Z_{i}}{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}\\$

将这条式子代入写有“常数”的式子中，得

$\begin{aligned} Q_{i}\left(\mathbf{Z}_{i}\right) &=\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{\sum_{\mathbf{Z}_{i}} p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)} \\ &=\frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{p\left(\mathbf{X}_{\mathbf{i}} \mid \boldsymbol{\theta}\right)} \\ &=p\left(\mathbf{Z}_{i} \mid \boldsymbol{\theta}, \mathbf{X}_{i}\right) \end{aligned} \\$

这样我们就找到了未知的分布 $Q_{i}(Z_{i})$ ，似然函数的下界就有了具体的表达式。

上面建立似然函数 $l(\theta)$ 的下界就是EM算法的E-step，接下来的M-step要做的就是在给定的 $Q_{i}(Z_{i})$ 下，极大化似然函数求出 $\theta$ 就行。这样就可以得出EM算法的一般步骤：

E-step：对每一个 $i$ 计算

$p\left(\mathbf{Z}_{i} \mid \boldsymbol{\theta}, \mathbf{X}_{i}\right)\\$

M-step:计算

$\underset{\theta}{\arg \max } \sum_{i=1}^{N} \sum_{\mathbf{Z}_{i}} Q_{i}\left(\mathbf{Z}_{i}\right) \log \frac{p\left(\mathbf{X}_{i}, \mathbf{Z}_{i} \mid \boldsymbol{\theta}\right)}{Q_{i}\left(\mathbf{Z}_{i}\right)} \\$

在一开始初始化模型参数 $\theta$ ，重复E步和M步，直到算法收敛或参数值稳定在某一个很小的范围内，达到精度要求即可停止。

上面这张图就很好的展示EM算法在干什么，图讲得很清楚，就不解释了。

三、FA模型的EM算法求解

给定样本集 $\{X_{1},X_{2},···,X_{N}\}$ ，其中每个 $X_{i}$ 都是一 $D$ 维空间中的向量，为了实现对 $\{X_{1},X_{2},···,X_{N}\}$ 的降维，假设：

$Z_{i}\sim N(0,I) \\ \varepsilon\sim N(0,\Lambda_{\varepsilon })(\Lambda_{\varepsilon }是对角阵)\\$

在上一篇文章中说到， $X_{i}=WZ_{i}+\varepsilon +m$ ，所以有：

$X_{i}\sim N(m,WW^{T}+\Lambda_{\varepsilon})\\\$

这里大家可以自己用高斯分布的边缘分布与条件分布来推，或者用多元统计分析里的结论得到。

这篇文章涉及到的推导公式，具体详细的推导都可在我的个人站的blog看到。

注意：因为我们很容易能得到 $m=\frac{\sum_{i=1}^{N}{X_{i}}}{N}$ ，对于给定的数据，均值 $m$ 是易求且固定的，所以为了方便后面的公式的推导和书写，我们令 $X=X-m$ （这一步就是去均值处理，对模型没影响，只要最后补上均值就行）,并省去 $Z_{i},X_{i}$ 下标 $i$ ，即：

$X=WZ+\varepsilon \\$

有了 $X$ 和 $Z$ 的正态分布和对应的参数的假设，我们就可得到 $X和Z$ 之间的条件分布：

$X|Z\sim N(\mu_{X|Z},\Sigma_{X|Z})\\$

其中

$\mu_{X|Z}=WZ\\ \Sigma_{X|Z}=\Lambda_{\varepsilon}\\$

还有另一个条件分布：

$Z|X\sim N(\mu_{Z|X},\Sigma_{Z|X})\\$

其中

$\mu_{Z|X}=W^{T}(WW^T+\Lambda_{\varepsilon})^{-1}X\\ \Sigma_{Z|X}=I-W^{T}(WW^{T}+\Lambda_{\varepsilon})^{-1}W\\$

在FA中参数 $\theta =\{W,\Lambda _{\varepsilon} \}$ ，参数 $\theta$ 实际有两个未知参数，它的最大似然估计不好算，因此需要使用EM 算法求解，具体步骤如下：

首先初始化参数 $W和\Lambda _{\varepsilon}$ ，可以取任何值。（其实假设 $Z\sim N(0,I)$ 也是一种初始化，是对隐变量的初始化）

E-step：求

$p(Z|X;W,\Lambda_{\varepsilon}) =\frac{1}{(2\pi)^{\frac{M}{2}}\left| \Sigma_{Z|X} \right|^{\frac{1}{2}}}exp\{-\frac{1}{2}(Z-\mu_{Z|X})^{T}\Sigma_{Z|X}^{T}(Z-\mu_{Z|X})\} \\$

M-step:算

$\underset{W,\Lambda_{\varepsilon}}{\arg \max } \sum_{i=1}^{N} \sum_{\mathbf{Z}} Q_{i}\left(\mathbf{Z}\right) \log \frac{p\left(\mathbf{X}, \mathbf{Z} ; \boldsymbol{W,\Lambda_{\varepsilon}}\right)}{Q_{i}\left(\mathbf{Z}\right)} \\ =\underset{W,\Lambda_{\varepsilon}}{\arg \max } \sum_{i=1}^{N} E_{Z\sim Q_{i}}[logp(X|Z;W,\Lambda_{\varepsilon})]\\ =\underset{W,\Lambda_{\varepsilon}}{\arg \max } \sum_{i=1}^{N} E_{Z\sim Q_{i}}[-\frac{1}{2}(X-WZ)^{T}\Lambda_{\varepsilon}^{-1}(X-WZ)-\frac{1}{2}log\left| \Lambda_{\varepsilon} \right|-\frac{N}{2}log\left| 2\pi \right|]\\$

这篇文章涉及到的推导公式，具体详细的推导都可在我的个人站的blog看到。

通过求偏导和一系列演算，可得：

$W=(\sum_{i=1}^{N}{X\mu_{Z|X}^{T}})(\sum_{i=1}^{N}{\mu_{Z|X}^{T}+\Sigma_{Z|X}})^{-1}\\ \Lambda_{\varepsilon}=\frac{1}{N}diag\{\sum_{i=1}^{N}{[XX^{T}-W\mu_{Z|X}X^{T}-X\mu_{Z|X}^{T}W^{T}+W(\mu_{Z|X}\mu_{Z|X}^{T}+\Sigma_{Z|X})W^{T}]}\}\\$