斯坦福大学机器学习-note9

最新推荐文章于 2020-05-17 16:32:47 发布

starspringcloud

最新推荐文章于 2020-05-17 16:32:47 发布

阅读量735

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Part X 因子分析

当我们有一组来自混合高斯模型的数据 ${ x }^{ (i) }\epsilon { R }^{ n }$ ，使用EM算法可以计算出混合模型。在这个设置中，我么通常认为有足够的样本

用来描述高斯结构。例如：样本的个数m 远大于样本的特征维度。现在，考虑当n>>m的情况。在这样的问题里面，即使建立一个

单高斯模型都是困难的，更别说一个混合高斯模型。特别的，由于的一个低纬子空间，如果我们使用m个数据点建立高斯模型，然

后使用最大似然估计计算均和协方差：m个数据点只是 ${ R }^{ n }$

我们会发现，方差矩阵是奇异的。意味着 ${ \Sigma }^{ -1 }$ 不存在，以及 $1/{ |\Sigma | }^{ 1/2 }=1/0$ 。而这两者是多元正态分布概率密度函数的必要参数。

通常，除非m在一个合理的范围上超过n，否则最大似然估计计算出的均值和协方差是相当差的。尽管如此，我们仍然希望能够为

数据建立合理的高斯模型，通过样本数据获得正确的协方差矩阵。如何做到这一点呢？

在下一节中，我们将回顾2个协方差矩阵的约束。它们将允许我们用少量的样本数据去计算协方差矩阵，但并不能令人满意的解决

问题。接下来，我们讨论了高斯的一些特性。具体的：如何找到高斯的边缘和条件分布。最后，我们提出了因子分析模型。

1、协方差矩阵的约束

如果我们没有足够的数据去计算完整的协方差矩阵。我们可能考虑对协方差矩阵进行一些限制，例如：我们现在协方差矩阵为对

角矩阵。在这个设置中，那么，很容易通过极大似然估计求出其值：

因此，协方差矩阵的对角元素可以直接从样本数据中计算获得。回想一下，高斯密度的轮廓是椭圆。一个对角协方差矩阵对应的

多元高斯轮廓线是轴对称的。

有时，我们会对协方差矩阵进一步约束，不仅是对角矩阵，并且对角元素都相等。在这个设置中，有 $\Sigma ={ \alpha }^{ 2 }I$ 。通过最大似然估计计算：

这个模型对应的高斯密度轮廓是圆形的（二维时，高维时是球体）。

如果我们要计算一个完整的，没有约束的协方差矩阵，那么要求m >= n+1，才能使最大似然估计的结果是非奇异矩阵。但是在

上面的任意一个约束下，只要m>=2，我们就能获得非奇异的协方差矩阵。

然而，限制协方差矩阵为对角阵也意味着：随机变量Xi、Xj是不相关、是相互独立的。但是，通常样本数据是相关的。这时如果

我们使用上述2个约束，将会建模失败。在下文中，我们将讨论"因子分析模型"，它比对角矩阵使用更多的参数，且能够捕捉到样本

数据间的相关性。同时它不必计算整个协方差矩阵。

3 边缘和条件高斯分布

在描述因素分析前，我们讨论如何找到一个多变量高斯分布的随机变量的条件和边缘分布。

假设我们有如下随机变量向量：

其中： $\mu_{1}\in \mathbb R^{r},\mu_{2}\in \mathbb R^{s},\Sigma_{11}\in \mathcal R^{r\times r},\Sigma_{12}\in \mathcal R^{r\times s}$ 逆对角元素存相互对称 $\Sigma_{12}=\Sigma_{21}^{T}$ 。

按照我们的假设，x1和x2是联合多变量高斯分布，那么x1的边缘分布是什么？明显E[X1] = u1，Cov(x1) = E[(x1 − µ1)(x1 − µ1)] = Σ11。根据协方差矩阵的定

义有：

从上式可以得到：随机变量的边际分布为 $x_{1}\sim \mathcal N(\mu_{1},\Sigma_{11})$ ；若在给定的前提下，的条件分布为 $x_{1}|x_{2}\sim\mathcal N(\mu_{1|2},\Sigma_{1|2})$ ，其中：

$\mu_{1|2}=\mu_{1}+\Sigma_{12}\Sigma_{22}^{-1}(x_{2}-\mu_{2})$

$\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$

在下一节的因素分析模型中，这些寻找高斯的条件和边缘分布的公式将是非常有用的。

由以上的直观分析，我们知道了因子分析其实就是认为高维样本点实际上是由低维样本点经过高斯分布、线性变换、误差扰动生

成的，因此高维数据可以使用低维来表示。

3、因子分析模型

在因子分析模型中，我们假设联合分布（x，z）如下，其中z是一个隐藏随机变量：

其中： $\mu\in\mathbb R^{n}, \Lambda\in \mathbb R^{n\times k},\Psi\in\mathbb R^{n\times n}$ ，并且 $\Psi$ 为对角阵，。

上述假设可以解释为：每个点 $x^{(i)}$ 都是由k维正态随机变量 $z^{(i)}$ 采样生成。首先， $z^{(i)}$ 通过 $\mu+\Lambda z^{(i)}$ 由k维映射到n维，然后，再将协方差为 $\Psi$ 的随机噪声加入。

其等价于：

$z\sim \mathcal N(0,I)$

$\epsilon \sim \mathcal N(0,\Psi)$

$x=\mu+\Lambda z+\epsilon$

其中， $\epsilon$ 和z相互独立。

假如随机变量z和x的联合高斯分布可以写成如下形式：

$\begin{bmatrix}z\\x\end{bmatrix}\sim\mathcal N(\mu_{zx},\Sigma)$

我们将求出其期望 $\mu_{zx}$ 和协方差 $\Sigma$ 。

由于 $z\sim \mathcal N(0,I)$ ，因此， $E[z]=\overset{\rightarrow}{0}$ 。

$\begin{aligned}E[x]&=E[\mu+\Lambda z+\epsilon]\\ &=\mu+\Lambda E[z]+E[\epsilon]\\&=\mu \end{aligned}$

那么：

$\mu_{zx}=\begin{bmatrix}0\\ \mu\end{bmatrix}$

由上文可知：

$\Sigma=\begin{bmatrix}\Sigma_{zz}&\Sigma_{zx}\\ \Sigma_{xz}&\Sigma_{xx} \end{bmatrix}$

下面对其分别求解：

$\Sigma_{zz}=Cov(z)=I$

$\begin{aligned}\Sigma_{zx}&=E[(z-E[z])(x-E[x])^{T}]\\&=E[z(\mu+\lambda z+\epsilon-\mu)]\\&=E[zz^{T}]\Lambda^{T}+E[z\epsilon^{T}]\\&=\Lambda^{T} \end{aligned}$

$\begin{aligned}\Sigma_{xx}&=E[(x-E[x])(x-E[x])^{T}]\\&=E[ (\mu+\lambda z+\epsilon-\mu)(\mu+\lambda z+\epsilon-\mu)^{T} ]\\&=E[\Lambda zz^{T}\Lambda^{T}+\epsilon z^{T}\Lambda^{T}+\Lambda z\epsilon^{T}+\epsilon\epsilon^{T}]\\&=\Lambda E[zz^{T}]\Lambda^{T}+E[\epsilon\epsilon^{T}]\\&=\Lambda\Lambda^{T}+\Psi\end{aligned}$

因此，随机变量z和x的联合高斯分布为：

$\begin{bmatrix}z\\x \end{bmatrix} \sim \mathcal N (\begin{bmatrix} 0\\ \mu\end{bmatrix},\begin{bmatrix} I&\Lambda^{T}\\ \Lambda & \Lambda\Lambda^{T}+\Psi \end{bmatrix} )$

随机变量x的边际分布为 $x\sim \mathcal N(\mu,\Lambda\Lambda^{T}+\Psi)$ ，因此，给定的训练集 $\{x^{(i)}:i=1,2,...,m\}$ ，我们就可以得出其对数的似然方程：

$\small l(\mu,\lambda,\Psi)=log\underset{i=1}{\overset{m}{\prod}}\frac{1}{(2\pi)^{n/2}\left|\lambda\Lambda^{T}+\Psi\right|}exp(-\frac{1}{2}(x^{(i)}-\mu)(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu))$

为了得到最大似然估计，需要对似然方程求最大值。然而，求解该方程的最大值极其困难，因此我们可以采用EM算法对极大似然函数进行求解。

五、EM算法求解因子分析

条件概率 $\small z^{(i)}|x^{(i)};\mu,\Lambda,\Psi\sim\mathcal N(\mu_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}})$ ，根据第二三节的结论可以推出：

$\small \mu_{z^{(i)}|x^{(i)}}=\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu)$

$\small \Sigma_{z^{(i)}|x^{(i)}}= I-\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}\Lambda$

根据EM算法的定义可知，E-step为：

$\small \begin{aligned}Q_{i}(z^{(i)})&=p(z^{(i)}|x^{(i)};\mu.\Lambda,\Psi)\\&=\frac{1}{ (2\pi)^{k/2} \left| \Sigma_{z^{(i)}|x^{(i)}} \right|^{1/2} }exp(-\frac{1}{2}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})^{T}\Sigma^{-1}_{z^{(i)}|x^{(i)}}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})) \end{aligned}$

M-step需要最大化：

$\small \begin{aligned}&\underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)}{Q_{i}(z^{(i)})}dz^{(i)}\\=&\underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})]dz^{(i)}\\=&\underset{i=1}{\overset{m}{\sum}}E_{z^{(i)}\sim Q_{i}}[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})] \end{aligned}$

这里的下标 $\small z^{(i)}\sim Q_{i}$ 是指以 $\small z^{(i)}$ 为随机变量， $\small Q_{i}(z^{(i)})$ 为密度函数的期望。

我们忽略与带估计参数无关的项，实际就是求下式的最大值：

$\small \begin{aligned}&\underset{i=1}{\overset{m}{\sum}}E[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)]\\=&\underset{i=1}{\overset{m}{\sum}}E[log\;\frac{1}{(2\pi)^{n/2/}\left|\Psi\right|^{1/2}}exp(-\frac{1}{2} (x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1} (x^{(i)}-\mu-\Lambda z^{(i)}))]\\=& \underset{i=1}{\overset{m}{\sum}}E[-\frac{1}{2}log\;\left|\Psi\right|-\frac{n}{2}log(2\pi)-\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ] \end{aligned}$

下面我们分别求出待估参数：

（1） $\small \Lambda$
为求出上式关于 $\small \Lambda$ 的偏导，可将上式整理，去除与 $\small \Lambda$ 无关项，可得等价式：

$\small \begin{aligned}&\nabla_{\Lambda} \underset{i=1}{\overset{m}{\sum}} -E[\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ]\\=& \frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}\Lambda z^{(i)}+tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)]\\=&\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr \Lambda^{T}\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+tr\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}]\\= &\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}E[-\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}] \end{aligned}$

上式第2行至第3行根据trAB=trBA, 第3行至第4行根据 $\small \begin{aligned}\nabla_{A}trABA^{T}C=CAB+C^{T}AB\end{aligned}$ 。
令上式为0，可得：

$\small \underset{i=1}{\overset{m}{\sum}}\Lambda E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}] = \underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu)E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]$

解得：

$\small \Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}] ) (\underset{i=1}{\overset{m}{\sum}} E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}])^{-1}$

根据对 $\small Q_{i}(z^{(i)})$ 的定义， $\small Q_{i}(z^{(i)})$ 为 $\small \mathcal N(\mu_ {z^{(i)}|x^{(i)}} ,\Sigma_{z^{(i)}|x^{(i)}} )$ ，因此可得：

$\small E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}}^{T}$

$\small E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}}$

将上述两式结果带入可得：

$\small \Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) \mu_{z^{(i)}|x^{(i)}}^{T} ) (\underset{i=1}{\overset{m}{\sum}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}} )^{-1}$

（2） $\small \mu$
将M步的公式对 $\small \mu$ 求偏导，可得：

$\small \mu=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}$

（3） $\small \Psi$

再令 $\small \Psi_{ii}=\Phi_{ii}$ ，即可得到 $\small \Psi$ 的值。

六、总结

当样本由混合高斯模型得来，并且样本的数量m小于样本的维度n时，由于协方差矩阵为奇异的，因此无法直接通过极大似然进行参数估计。因子分析模型通过引入隐随机变量和随机噪声，构造样本与隐随机变量的联合分布，该联合分布的协方差矩阵为非奇异的。然后再利用EM算法进行参数估计，建立模型。

starspringcloud

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
斯坦福大学机器学习-note9

Part X 因子分析当我们有一组来自混合高斯模型的数据，使用EM算法可以计算出混合模型。在这个设置中，我么通常认为有足够的样本用来描述高斯结构。例如：样本的个数m 远大于样本的特征维度。现在，考虑当n>>m的情况。在这样的问题里面，即使建立一个单高斯模型都是困难的，更别说一个混合高斯模型。特别的，由于m个数据点只是的一个低纬子空间，如果我们使用m个数据点建立高斯
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。