斯坦福公开课Machine Learning笔记(十一)--Factor Analysis

最新推荐文章于 2024-10-18 15:36:14 发布

beichao001

最新推荐文章于 2024-10-18 15:36:14 发布

阅读量372

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/beichao001/article/details/52422791

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

斯坦福公开课Machine Learning笔记(十一)–Factor Analysis

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

Factor analysis其实就是拨开现象发现本质的过程.
但是本质是观察不到的,所以要根据原始的找到潜在的,就可以用EM算法.
对于高斯混合模型中EM的M-step,当n>>m时:

$\mu=\frac{1}{m}\sum_{i=1}^m{x^{(i)}}$

$\Sigma=\frac{1}{m}\sum_{i=1}^m{(x^{(i)}-\mu)(x^{(i)}-\mu)^T}$

这里的均值计算没问题,但是计算 $\Sigma$ 时,得到的是奇异矩阵, $\Sigma^{-1}$ 不存在.
所以要对 $\Sigma$ 做限制.这里设 $\Sigma$ 为对角矩阵.

$\Sigma_{jj}=\frac{1}{m}\sum_{i=1}^m{(x^{(i)}_j-\mu_j)^2}$

这样对m就没有要求了,有样本就可以计算方差.
再进一步假设,对角线上的值都是相等的,为方差的平均值.
$\delta^2=\frac{1}{mn\sum_{j=1}^n{\sum_{i=1}^m{(x^{(i)}_j-\mu_j)^2}}}$ ,但是这样丢失了很多信息.

The Factor Analysis Model

$z\text{~}N(0,I) \space\in R^k$

$\epsilon \text{~}N(o,\Phi)$

$x=\mu+\Lambda z+\epsilon\space \in R^n$

x为原始变量,z为因子变量, $\Lambda$ 为偏移量, $\epsilon$ 为误差.
所以可以理解为:高维的原始变量都是可以用低维的因子变量通过线性变换德奥.可以达到降维的目的.

$\begin{bmatrix}z\\x\end{bmatrix}$ $\text{~}N(\mu_{zx},\Sigma) \text{~}$

$N(\begin{bmatrix}\vec{0}\\\mu\end{bmatrix},\begin{bmatrix}I&\Lambda^T\\ \Lambda& \Lambda\Lambda^T+\Phi\end{bmatrix})$

$\therefore \text{~}N(\mu,\Lambda\Lambda^T+\Phi)$

$\therefore l(\mu,\Lambda,\Phi)=\log{\prod_{i=1}^m{\frac{1}{(2\pi)^{\frac{n}{2}}|\Lambda\Lambda^T+\Phi|}exp(-\frac{1}{2}(x^{(i)}-\mu)^T(\Lambda\Lambda^T+\Phi)^{-1}(x^{(i)}-\mu))}}$
但是无法直接求解,所以使用EM:

$E-step:$

$Q_i(z^{(i)})=P(z^{(i)}|x^{(i)};\mu,\Lambda,\Phi) \space (z^{(i)}|x^{(i)};\mu,\Lambda,\Phi \text{~}N(\mu_{z^{(i)}}|x^{(i)},\Sigma_{z^{(i)}|x^{(i)}}))$

$\mu_{z^{(i)}|z^{(i)}}=\Lambda(\Lambda\Lambda^T+\Phi)^{-1}(x^{(i)}-\mu)$

$\Sigma_{\Lambda\Lambda^T+\Phi|x^{(i)}}=I-\Lambda^T(\Lambda\Lambda^T+\Phi)\Lambda$

$\therefore Q_i(z^{(i)})=\frac{1}{(2\pi)^{\frac{k}{2}}|\Lambda\Lambda^T+\Phi|^{\frac{1}{2}}}exp(-\frac{1}{2}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})^T\Sigma_{z^{(i)}|x^{(i)}}^{-1}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}}))$