Andrew Ng机器学习课程笔记（十六）之无监督学习之因子分析模型与EM算法

最新推荐文章于 2023-06-03 08:41:41 发布

danerli

最新推荐文章于 2023-06-03 08:41:41 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习人工智能机器学习——基础篇

本文链接：https://blog.csdn.net/danerer/article/details/80295989

版权

机器学习同时被 3 个专栏收录

21 篇文章 2 订阅

订阅专栏

机器学习——基础篇

19 篇文章 1 订阅

订阅专栏

人工智能

17 篇文章 0 订阅

订阅专栏

Preface
Marginals and Conditionals of Gaussians
Restrictions of Σ
Factor Analysis
EM Algorithm for Factor Analysis

Preface

Marginals and Conditionals of Gaussians（高斯分布的边缘分布与条件分布）
Restrictions of $Σ$ （限制协方差矩阵）
Factor Analysis（因子分析模型）
EM Algorithm for Factor Analysis

Marginals and Conditionals of Gaussians

假设一个随机变量 $x$ ：

x = [x 1 x 2]

$\begin{aligned}x=\begin{bmatrix}x_{1}\\x_{2} \end{bmatrix}\end{aligned}$
其中，

x1∈Rr,x2∈Rs,x∈Rr+s x 1 ∈ R r , x 2 ∈ R s , x ∈ R r + s $x_{1}\in \mathbb R^{r},x_{2}\in \mathbb R^{s},x\in \mathbb R^{r+s}$ 。
再次假设

x∼N(μ,Σ) x ∼ N ( μ , Σ ) $x\sim N(μ,Σ)$ ，所以可以得到：

μ = [μ 1 μ 2], Σ = [Σ 11 Σ 21 Σ 12 Σ 22]

$\begin{aligned} \mu=\begin{bmatrix}\mu_{1}\\\mu_{2}\end{bmatrix},\Sigma=\begin{bmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{bmatrix} \end{aligned}$
其中，

μ1∈Rr,μ2∈Rs,Σ11∈Rr×r,Σ12∈Rr×s μ 1 ∈ R r , μ 2 ∈ R s , Σ 11 ∈ R r × r , Σ 12 ∈ R r × s $\mu_{1}\in \mathbb R^{r},\mu_{2}\in \mathbb R^{s},\Sigma_{11}\in \mathcal R^{r\times r},\Sigma_{12}\in \mathcal R^{r\times s}$ ，并且逆对角矩阵相互对称，即为

Σ12=ΣT21 Σ 12 = Σ 21 T $\Sigma_{12}=\Sigma_{21}^{T}$ 。
同时，我们可以求出随机变量

x x $x$ 的协方差矩阵：

\begin{aligned} C o v (x) & = Σ \\ = [\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}] \\ = E [(x - μ) (x - μ)^{T}] \\ = E [\begin{matrix} (\begin{matrix} x_{1} - μ_{1} \\ x_{2} - μ_{2} \end{matrix}) & {(\begin{matrix} x_{1} - μ_{1} \\ x_{2} - μ_{2} \end{matrix})}^{T} \end{matrix}] \\ = [\begin{matrix} (x_{1} - μ_{1}) (x_{1} - μ_{1})^{T} & (x_{1} - μ_{1}) (x_{2} - μ_{2})^{T} \\ (x_{2} - μ_{2}) (x_{1} - μ_{1})^{T} & (x_{2} - μ_{2}) (x_{2} - μ_{2})^{T} \end{matrix}] \end{aligned}

$\begin{aligned}Cov(x)&=\Sigma\\ &=\begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21}& \Sigma_{22}\end{bmatrix} \\ &=E[(x-\mu)(x-\mu)^{T}]\\ &= E\begin{bmatrix}\begin{pmatrix}x_{1}-\mu_{1}\\x_{2}-\mu_{2}\end{pmatrix}&\begin{pmatrix}x_{1}-\mu_{1}\\x_{2}-\mu_{2}\end{pmatrix}^{T} \end{bmatrix}\\&= \begin{bmatrix}(x_{1}-\mu_{1})(x_{1}-\mu_{1})^{T} &(x_{1}-\mu_{1})(x_{2}-\mu_{2})^{T}\\ (x_{2}-\mu_{2})(x_{1}-\mu_{1})^{T}&(x_{2}-\mu_{2})(x_{2}-\mu_{2})^{T} \end{bmatrix} \end{aligned}$
其中，随机变量

x1 x 1 $x_1$ 的边缘分布为

x1∼N(μ1,Σ11) x 1 ∼ N ( μ 1 , Σ 11 ) $x_{1}\sim \mathcal N(\mu_{1},\Sigma_{11})$ ，同时条件分布

x1|x2 x 1 | x 2 $x_{1}|x_{2}$ 为

x1|x2∼N(μ1|2,Σ1|2) x 1 | x 2 ∼ N ( μ 1 | 2 , Σ 1 | 2 ) $x_{1}|x_{2}\sim\mathcal N(\mu_{1|2},\Sigma_{1|2})$ 。

μ 1 | 2 = μ 1 + Σ 12 Σ - 1 22 (x 2 - μ 2) Σ 1 | 2 = Σ 11 - Σ 12 Σ - 1 22 Σ 21

$\begin{aligned}\mu_{1|2}=\mu_{1}+\Sigma_{12}\Sigma_{22}^{-1}(x_{2}-\mu_{2})\\\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\end{aligned}$

Restrictions of Σ

之前我们考虑的训练集 $x^{(i)}\in \mathbb R^{n},i\in\{1,m\}$ 中样例的个数 $m$ 都远远大于其特征个数 $n$ ，这样不管是进行回归、聚类等都没有太大的问题。但是如果样例的个数 $m$ 都小于其特征个数 $n$ ，甚至样例的个数 $m$ 都远远小于其特征个数 $n$ ，我们在使用以前的模型算法时（例如梯度下降法），如果初值不同，得到的参数结果会有很大偏差。

通过前面的文章Andrew Ng机器学习课程笔记（十四）之无监督学习之混合高斯模型与EM算法中多元高斯分布对数据进行拟合往往可以得到较好的效果。

多元高斯分布的参数估计公式如下：

μ = 1 m \sum m i = 1 x (i) Σ = 1 m \sum m i = 1 (x (i) - μ) (x (i) - μ) T

$\begin{aligned}&\mu = \frac {1}{m} \underset{i=1}{\overset{m}{\sum}}x^{(i)}\\ &\Sigma=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}} (x^{(i)}-\mu) (x^{(i)}-\mu)^{T} \end{aligned}$
但是在样例的个数

m m $m$ 都小于其特征个数

n

$n$ ，甚至样例的个数

m m $m$ 都远远小于其特征个数

n

$n$ 的情况下，由于

Σ Σ $Σ$ 是奇异矩阵（缺秩矩阵），即

| Σ | = 0

$\left|\Sigma\right|=0$ 。也就是说，

Σ Σ $Σ$ 不存在逆矩阵，即为我们无法解得

Σ

$Σ$ （没办法拟合出多元高斯分布）。
为了解决上述问题（没有足够的数据去估计Σ时），我们对模型参数进行一定假设，对

Σ Σ $Σ$ 加上一些限制条件：

Σ

$Σ$ 为对角矩阵，对角矩阵各特征向量间相互独立，我们只需要计算每个特征的方差即可，最后的

Σ Σ $Σ$ 只有对角线上的元素不为 0 。所以

Σ

$Σ$ 为：

Σ j j = 1 m \sum m i = 1 (x (i) j - μ j) 2

$\begin{aligned}\Sigma_{jj}=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}(x_{j}^{(i)}-\mu_{j})^{2}\end{aligned}$
更进一步的假设，对角线上的元素都是等值：

Σ = σ 2 I

$\begin{aligned}\Sigma=\sigma^{2} I \end{aligned}$
进行极大似然估计：

σ 2 = 1 m n \sum n j = 1 \sum m i = 1 (x (i) j - μ j)

$\begin{aligned}\sigma^{2}=\frac{1}{mn}\underset{j=1}{\overset{n}{\sum}}\underset{i=1}{\overset{m}{\sum}}(x_{j}^{(i)}-\mu_{j}) \end{aligned}$
继而得到

Σ Σ $Σ$ 。

Factor Analysis

定义数据集 $S=\{x^{(i)}\},x^{(i)}\in \mathbb R^{n},i\in\{1,m\}$ 。即，S有m个n维特征的训练样本。

低维映射高维

1.每一个 $x^{(i)}$ 由一个 k 维多元高斯分布 $z^{(i)}$ 生成。
假设存在一个隐含随机变量 $z\in\mathbb{R}^{k},k<n$ 的联合分布 $(x,z)$ ，同时 $z \sim N(0,I)$ 。
所以：

x | z \sim N (μ + Λ z, Ψ)

$\begin{aligned}x|z\sim \mathcal N(\mu+\Lambda z,\Psi) \end{aligned}$
其中，

μ∈Rn,Λ∈Rn×k,Ψ∈Rn×n μ ∈ R n , Λ ∈ R n × k , Ψ ∈ R n × n $\mu\in\mathbb R^{n}, \Lambda\in \mathbb R^{n\times k},\Psi\in\mathbb R^{n\times n}$ ，并且

Ψ Ψ $\Psi$ 为对角阵。

2.将 $z^{(i)}$ 通过变换矩阵 $\Lambda$ 由k维映射到n维。
所以有：

x = Λ z

$\begin{aligned}x=\Lambda z\end{aligned}$

z(i) z ( i ) $z^{(i)}$ 的均值是 0，映射后的

Λz Λ z $\Lambda z$ 仍然是 0。

3.对于变换之后的 $\Lambda z$ 加上均值 $μ\in \mathbb R^{n}$ 。

x = μ + Λ z

$\begin{aligned}x=\mu+\Lambda z\end{aligned}$
对应的意义是将变换后的

μ+Λz μ + Λ z $\mu+\Lambda z$ 移动到样本

x(i) x ( i ) $x^{(i)}$ 的中心点μ。

4.加入协方差为 $\Psi$ 的随机噪声。
所以有：

x = μ + Λ z + ϵ

$\begin{aligned}x=\mu+\Lambda z+\epsilon\end{aligned}$
其中，

ϵ∼N(0,Ψ) ϵ ∼ N ( 0 , Ψ ) $\epsilon \sim \mathcal N(0,\Psi)$ 和

z z $z$ 相互独立。

(x,z)的联合分布

这样一来， $(x,z)$ 的联合分布为：

[z x] \sim N (μ z x, Σ)

$\begin{aligned} \begin{bmatrix}z\\x\end{bmatrix}\sim\mathcal N(\mu_{zx},\Sigma)\end{aligned}$
由于

z∼N(0,I) z ∼ N ( 0 , I ) $z \sim \mathcal N(0,I)$ 与

ϵ∼N(0,Ψ) ϵ ∼ N ( 0 , Ψ ) $\epsilon \sim \mathcal N(0,\Psi)$ ，所以

E[z]=E[ϵ]=0 E [ z ] = E [ ϵ ] = 0 $E[z]=E[\epsilon]=0$ ，所以：

E [x] = E [μ + Λ z + ϵ] = μ + Λ E [z] + E [ϵ] = μ

$\begin{aligned}E[x]&=E[\mu+\Lambda z+\epsilon]\\ &=\mu+\Lambda E[z]+E[\epsilon]\\&=\mu \end{aligned}$
所以：

μ z x = [0 μ]

$\begin{aligned}\mu_{zx}=\begin{bmatrix}0\\ \mu\end{bmatrix}\end{aligned}$
由Marginals and Conditionals of Gaussians小节内容可以得到：

Σ = [Σ z z Σ x z Σ z x Σ x x]

$\begin{aligned}\Sigma=\begin{bmatrix}\Sigma_{zz}&\Sigma_{zx}\\ \Sigma_{xz}&\Sigma_{xx} \end{bmatrix}\end{aligned}$
所以：

Σ z z = C o v (z) = I

$\begin{aligned}\Sigma_{zz}=Cov(z)=I\end{aligned}$

Σ z x = E [(z - E [z]) (x - E [x]) T] = E [z (μ + λ z + ϵ - μ)] = E [z z T] Λ T + E [z ϵ T] = Λ T

$\begin{aligned}\Sigma_{zx}&=E[(z-E[z])(x-E[x])^{T}]\\&=E[z(\mu+\lambda z+\epsilon-\mu)]\\&=E[zz^{T}]\Lambda^{T}+E[z\epsilon^{T}]\\&=\Lambda^{T} \end{aligned}$

Σ x x = E [(x - E [x]) (x - E [x]) T] = E [(μ + λ z + ϵ - μ) (μ + λ z + ϵ - μ) T] = E [Λ z z T Λ T + ϵ z T Λ T + Λ z ϵ T + ϵ ϵ T] = Λ E [z z T] Λ T + E [ϵ ϵ T] = Λ Λ T + Ψ

$\begin{aligned}\Sigma_{xx}&=E[(x-E[x])(x-E[x])^{T}]\\&=E[ (\mu+\lambda z+\epsilon-\mu)(\mu+\lambda z+\epsilon-\mu)^{T} ]\\&=E[\Lambda zz^{T}\Lambda^{T}+\epsilon z^{T}\Lambda^{T}+\Lambda z\epsilon^{T}+\epsilon\epsilon^{T}]\\&=\Lambda E[zz^{T}]\Lambda^{T}+E[\epsilon\epsilon^{T}]\\&=\Lambda\Lambda^{T}+\Psi\end{aligned}$

所以 $(x,z)$ 的联合分布为：

[z x] \sim N ([0 μ], [I Λ Λ T Λ Λ T + Ψ])

$\begin{aligned}\begin{bmatrix}z\\x \end{bmatrix} \sim \mathcal N (\begin{bmatrix} 0\\ \mu\end{bmatrix},\begin{bmatrix} I&\Lambda^{T}\\ \Lambda & \Lambda\Lambda^{T}+\Psi \end{bmatrix} ) \end{aligned}$
所以x的边缘分布为：

x \sim N (μ, Λ Λ T + Ψ)

$\begin{aligned}x\sim \mathcal N(\mu,\Lambda\Lambda^{T}+\Psi)\end{aligned}$

x的最大似然估计

所以，(x,z)的联合分布的似然函数：

l (μ, λ, Ψ) = \prod m l o g P (x (i)) = l o g \prod m i = 1 1 ( 2 π ) n / 2 | λ Λ T + Ψ | e x p (- 1 2 (x (i) - μ) (Λ Λ T + Ψ) - 1 (x (i) - μ))

$\begin{aligned}l(\mu,\lambda,\Psi)&={\overset{m}{\prod}}\;log \;P(x^{(i)})\\ &=log\underset{i=1}{\overset{m}{\prod}}\frac{1}{(2\pi)^{n/2}\left|\lambda\Lambda^{T}+\Psi\right|}exp(-\frac{1}{2}(x^{(i)}-\mu)(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu)) \end{aligned}$

同GMM模型一样我们想要求得似然方程求最大值是极其困难的。所以我们将把EM算法用于因子分析中。

EM Algorithm for Factor Analysis

回顾我们在Andrew Ng机器学习课程笔记（十三）之无监督学习之EM算法中提到的EM算法

Repeat until convergence{

(E-step) for each i, set
$w (i) j : = Q i (z (i) = j) : = p (z (i) = j | x (i); θ)$ $\begin{aligned} w_j^{(i)}:=Q_{i}(z^{(i)}=j):=p(z^{(i)}=j|x^{(i)};\theta) \end{aligned}$
(M-step) set
$θ : = arg max θ \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )$ $\begin{aligned}\theta:=\text{arg}\;\;\underset{\theta}{\text{max}}\;\;\underset{i}{\sum}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})} \end{aligned}$

｝

由Marginals and Conditionals of Gaussians小节内容可以得到条件概率：

z (i) | x (i); μ, Λ, Ψ \sim N (μ z (i) | x (i), Σ z (i) | x (i)) μ z (i) | x (i) = Λ T (Λ Λ T + Ψ) - 1 (x (i) - μ) Σ z (i) | x (i) = I - Λ T (Λ Λ T + Ψ) - 1 Λ

$\begin{aligned} z^{(i)}|x^{(i)};\mu,\Lambda,\Psi\sim\mathcal N(\mu_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}})&\\ \mu_{z^{(i)}|x^{(i)}}=\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu)&\\ \Sigma_{z^{(i)}|x^{(i)}}= I-\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}\Lambda& \end{aligned}$

所以使用因子分析中的 $\mu,\Lambda,\Psi$ 参数替换一般化EM算法中的 $θ$ 参数，然后在依次解决 $w^{(i)}_j$ 与 $\mu,\Lambda,\Psi$ 参数的更新问题就好。

E-Step

Q i (z (i)) = p (z (i) | x (i); μ . Λ, Ψ) = 1 ( 2 π ) k / 2 ∣ ∣ Σ z ( i ) | x ( i ) ∣ ∣ 1 / 2 e x p (- 1 2 (z (i) - μ z (i) | x (i)) T Σ - 1 z (i) | x (i) (z (i) - μ z (i) | x (i)))

$\begin{aligned}Q_{i}(z^{(i)})&=p(z^{(i)}|x^{(i)};\mu.\Lambda,\Psi)\\&=\frac{1}{ (2\pi)^{k/2} \left| \Sigma_{z^{(i)}|x^{(i)}} \right|^{1/2} }exp(-\frac{1}{2}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})^{T}\Sigma^{-1}_{z^{(i)}|x^{(i)}}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})) \end{aligned}$

M-Step

我们得到的是：

arg max μ, Λ, Ψ = = \sum m i = 1 \int z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; μ , Λ , Ψ ) Q i ( z ( i ) ) d z (i) arg max μ, Λ, Ψ \sum m i = 1 \int z (i) Q i (z (i)) [l o g p (x (i) | z (i); μ, Λ, Ψ) + l o g p (z (i)) - l o g Q i (z (i))] d z (i) arg max μ, Λ, Ψ \sum m i = 1 E z (i) \sim Q i [l o g p (x (i) | z (i); μ, Λ, Ψ) + l o g p (z (i)) - l o g Q i (z (i))] (1) (2) (3)

$\begin{aligned} \text{arg}\;\;\underset{\mu,\Lambda,\Psi}{\text{max}}\;\; &\underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)}{Q_{i}(z^{(i)})}dz^{(i)}&(1)\\ =&\text{arg}\;\;\underset{\mu,\Lambda,\Psi}{\text{max}}\;\; \underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})]dz^{(i)}&(2)\\ =&\text{arg}\;\;\underset{\mu,\Lambda,\Psi}{\text{max}}\;\; \underset{i=1}{\overset{m}{\sum}}E_{z^{(i)}\sim Q_{i}}[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})] &(3)\end{aligned}$

上式中的步骤（2）到步骤（3）的推导依然是使用数学期望公式（如同在Andrew Ng机器学习课程笔记（十三）之无监督学习之EM算法中关于M-Step的推导方法一样）。需要特别注明的是： $E_{z^{(i)}\sim Q_{i}}$ 表示随机变量 $z^{(i)}$ 在某一分布的密度函数 $Q_{i}$ 下的期望值。

同时在这里，由于我们是要基于 $w^{(i)}_j$ 与 $\mu,\Lambda,\Psi$ 参数去解得目标函数的最大值，我们可以将目标函数的最大值化简为：

= = \sum m i = 1 E [l o g p (x (i) | z (i); μ, Λ, Ψ)] \sum m i = 1 E [l o g 1 ( 2 π ) n / 2 / | Ψ | 1 / 2 e x p (- 1 2 (x (i) - μ - Λ z (i)) T Ψ - 1 (x (i) - μ - Λ z (i)))] \sum m i = 1 E [- 1 2 l o g | Ψ | - n 2 l o g (2 π) - 1 2 (x (i) - μ - Λ z (i)) T Ψ - 1 (x (i) - μ - Λ z (i))]

$\begin{aligned}&\underset{i=1}{\overset{m}{\sum}}E[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)]\\=&\underset{i=1}{\overset{m}{\sum}}E[log\;\frac{1}{(2\pi)^{n/2/}\left|\Psi\right|^{1/2}}exp(-\frac{1}{2} (x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1} (x^{(i)}-\mu-\Lambda z^{(i)}))]\\=& \underset{i=1}{\overset{m}{\sum}}E[-\frac{1}{2}log\;\left|\Psi\right|-\frac{n}{2}log(2\pi)-\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ] \end{aligned}$

(1)基于参数Λ的函数最大化

关于参数 $Λ$ 求偏导，同时由于只考虑参数 $Λ$ ，所以有：

= = = \nabla Λ \sum m i = 1 - E [1 2 (x (i) - μ - Λ z (i)) T Ψ - 1 (x (i) - μ - Λ z (i))] 1 2 \sum m i = 1 \nabla Λ E [- t r z (i) T Λ T Ψ - 1 Λ z (i) + t r z (i) T Λ T Ψ - 1 (x (i) - μ)] 1 2 \sum m i = 1 \nabla Λ E [- t r Λ T Ψ - 1 Λ z (i) z (i) T + t r Λ T Ψ - 1 (x (i) - μ) z (i) T] 1 2 \sum m i = 1 E [- Ψ - 1 Λ z (i) z (i) T + Ψ - 1 (x (i) - μ) z (i) T]

$\begin{aligned}&\nabla_{\Lambda} \underset{i=1}{\overset{m}{\sum}} -E[\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ]\\=& \frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}\Lambda z^{(i)}+tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)]\\=&\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr \Lambda^{T}\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+tr\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}]\\= &\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}E[-\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}] \end{aligned}$

上式的第一步到第二步是根据 $tr a = a(a 是实数时)$ ， $trAB=trBA$ ，第二步到第三步是根据 $\nabla_{A}trABA^{T}C=CAB+C^{T}AB$ 。

令上式为0，所以有：

\sum m i = 1 Λ E z (i) \sim Q i [z (i) z (i) T] = \sum m i = 1 (x (i) - μ) E z (i) \sim Q i [z (i) T]

$\begin{aligned}\underset{i=1}{\overset{m}{\sum}}\Lambda E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}] = \underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu)E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]\end{aligned}$
所以：

Λ = (\sum m i = 1 (x (i) - μ) E z (i) \sim Q i [z (i) T]) (\sum m i = 1 E z (i) \sim Q i [z (i) z (i) T]) - 1

$\begin{aligned}\Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}] ) (\underset{i=1}{\overset{m}{\sum}} E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}])^{-1} \end{aligned}$
因为

Qi(z(i))=p(z(i)|x(i);μ.Λ,Ψ) Q i ( z ( i ) ) = p ( z ( i ) | x ( i ) ; μ . Λ , Ψ ) $Q_{i}(z^{(i)})=p(z^{(i)}|x^{(i)};\mu.\Lambda,\Psi)$ ，且

Ez(i)∼Qi E z ( i ) ∼ Q i $E_{z^{(i)}\sim Q_{i}}$ 表示随机变量

z(i) z ( i ) $z^{(i)}$ 在某一分布的密度函数

Qi Q i $Q_{i}$ 下的期望值。

所以：

E z (i) \sim Q i [z (i) T] = μ T z (i) | x (i)

$\begin{aligned} E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}}^{T}\end{aligned}$

由于 $E[x^2]=E[xx^T]$ 与 $Σ=E[x^2]-(E[x])^2=E[xx^T]-(E[x])^2$ ，所以：

E z (i) \sim Q i [z (i) z (i) T] = μ z (i) | x (i) μ T z (i) | x (i) + Σ z (i) | x (i)

$\begin{aligned} E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}} \end{aligned}$
所以：

Λ = (\sum m i = 1 (x (i) - μ) μ T z (i) | x (i)) (\sum m i = 1 μ T z (i) | x (i) + Σ z (i) | x (i)) - 1

$\begin{aligned}\Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) \mu_{z^{(i)}|x^{(i)}}^{T} ) (\underset{i=1}{\overset{m}{\sum}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}} )^{-1}\end{aligned}$

(2)基于参数μ的函数最大化

关于参数 $\mu$ 求偏导并令其等于0，所以有：

μ = 1 m \sum m i = 1 x (i)

$\begin{aligned}\mu=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}\end{aligned}$

(3)基于参数Ψ的函数最大化

关于参数 $Ψ$ 求偏导并令其等于0，所以有：

\begin{aligned} Φ = \frac{1}{m} \underset{i = 1}{\sum^{m}} x^{(i)} x^{(i)^{T}} - x^{(i)} μ_{z^{(i)} | x^{(i)}}^{T} Λ^{T} - Λ μ_{z^{(i)} | x^{(i)}} x^{(i)^{T}} + Λ (μ_{z^{(i)} | x^{(i)}} μ_{z^{(i)} | x^{(i)}}^{T} + Σ_{z^{(i)} | x^{(i)}}) Λ^{T} \end{aligned}

$\begin{aligned}\Phi=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}x^{(i)^{T}}-x^{(i)} \mu_{z^{(i)}|x^{(i)}}^{T} \Lambda^{T}-\Lambda\mu_{z^{(i)}|x^{(i)}}x^{(i)^{T}}+\Lambda(\mu_{z^{(i)}|x^{(i)}}\mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}})\Lambda^{T}\end{aligned}$
然后令

Ψii=Φii Ψ i i = Φ i i $Ψ_{ii}=\Phi_{ii}$ ，可以得参数

Ψ Ψ $Ψ$ 。

EM Algorithm for Factor Analysis

所以EM Algorithm for Factor Analysis的E-step和M-step为：

Repeat until convergence{

(E-step) for each i, set

$\begin{aligned} Q_{i} (z^{(i)}) = \frac{1}{(2 π)^{k / 2} {| Σ_{z^{(i)} | x^{(i)}} |}^{1 / 2}} e x p (- \frac{1}{2} (z^{(i)} - μ_{z^{(i)} | x^{(i)}})^{T} Σ_{z^{(i)} | x^{(i)}}^{- 1} (z^{(i)} - μ_{z^{(i)} | x^{(i)}})) \end{aligned}$
- (M-step) set
  $Λ = (\sum m i = 1 (x (i) - μ) μ T z (i) | x (i)) (\sum m i = 1 μ T z (i) | x (i) + Σ z (i) | x (i)) - 1$ $\begin{aligned} \Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) \mu_{z^{(i)}|x^{(i)}}^{T} ) (\underset{i=1}{\overset{m}{\sum}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}} )^{-1} \end{aligned}$
  $μ = 1 m \sum m i = 1 x (i)$ $\begin{aligned}\mu=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}\end{aligned}$
  $Ψ = 1 m \sum m i = 1 x (i) x (i) T - x (i) μ T z (i) | x (i) Λ T - Λ μ z (i) | x (i) x (i) T + Λ (μ z (i) | x (i) μ T z (i) | x (i) + Σ z (i) | x (i)) Λ T$ $\begin{aligned}Ψ=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}x^{(i)^{T}}-x^{(i)} \mu_{z^{(i)}|x^{(i)}}^{T} \Lambda^{T}-\Lambda\mu_{z^{(i)}|x^{(i)}}x^{(i)^{T}}+\Lambda(\mu_{z^{(i)}|x^{(i)}}\mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}})\Lambda^{T}\end{aligned}$
  ｝

danerli

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Andrew Ng机器学习课程笔记（十六）之无监督学习之因子分析模型与EM算法

PrefaceJensen’s InequalityExpectation-Maximization AlgorithmPrefaceFactor Analysis（因子分析模型）EM Algorithm for Factor AnalysisJensen’s InequalityExpectation-Maximization Algorithm...
复制链接

扫一扫