主成分分析(PCA)，概率主成分分析(PPCA)和因子分析(FA)的区别？

最新推荐文章于 2022-10-05 09:27:00 发布

Jie Qiao

最新推荐文章于 2022-10-05 09:27:00 发布

阅读量4.4k

点赞数 5

分类专栏：人工智能

本文链接：https://blog.csdn.net/a358463121/article/details/105479271

版权

人工智能专栏收录该内容

51 篇文章 15 订阅

订阅专栏

介绍

在PCA中，有一份样本为n，维度为d的数据 $\displaystyle X\in \mathbb{R}^{n\times d}$ ，我们希望降维，于是：

$X\approx ZW^{T}$

而Probabilistic PCA则是假设

$x\sim \mathcal{N}\left( Wz,\sigma ^{2} I\right) ,\ \ z\sim \mathcal{N} (0,I)$

当 $\displaystyle \sigma \rightarrow 0$ 时，PPCA等价于PCA。
另外Factor analysis则是假设

$x\sim \mathcal{N}( Wz,D) ,\ \ z\sim \mathcal{N} (0,I)$

其中D是一个对角矩阵，他跟PPCA的区别就是x的每一个维度的方差都可以不一样，而PPCA中x每个维度的方差都是一样的 $\displaystyle \sigma ^{2}$ 。不过好像很多人都没搞明白FA跟PCA的区别，这主要是因为很多软件，它写着方法是FA，但实际上给你运行的是PCA >_< 这都是这些软件的锅…

接下来将介绍PCA和PPCA的一些推导。

从PCA说起

我们知道PCA一般是用来降维的，如果有一份样本为n，维度为d的数据 $\displaystyle X\in \mathbb{R}^{n\times d}$ ，那他是怎么实现的呢？其实是基于以下公式实现的：

$X\approx ZW^{T}$

其中 $Z\in \mathbb{R}^{n\times k} ,W\in \mathbb{R}^{d\times k}$ ，只要我们能够找到一个k≪d的矩阵，使得X跟 $\displaystyle ZW^{T}$ 尽可能接近就可以了。更具体的说，对于某个样本 $\displaystyle x^{( i)} \in \mathbb{R}^{n\times 1}$ ,其近似方式为

$x^{( i)} \approx Wz^{( i)}$

一般来说，我们只需要估计W的值，因为如果W已知的话，z是可以直接用x求出来的：

$z^{( i)} =\arg\min_{z} \| x^{( i)} -Wz\| ^{2} =\left( W^{T} W\right)^{-1} W^{T} x^{( i)}$

可以简单推导下：

$\begin{aligned} & \frac{\partial }{\partial z}\left( x^{( i)} -Wz\right)^{T}\left( x^{( i)} -Wz\right)\\ = & -2W^{T}\left( x^{( i)} -Wz\right)\\ = & -2\left( W^{T} x^{( i)} -W^{T} Wz\right)\\ = & 0\\ \Longrightarrow & z=\left( W^{T} W\right)^{-1} W^{T} x^{( i)} \end{aligned}$

我们通常假设W是正交矩阵，于是 $\displaystyle W^{T} W=I$ ,从而 $\displaystyle z=W^{T} x^{( i)}$ ；从这条式子可以看出，z的每一个维度是由一列一列的w，然后将x加权平均得到的。又因为这个W是不唯一的，他的旋转的是等价的，因此为了保证唯一性，我们通常会通过逐列求解W来保证唯一性。那么如何逐列求解呢？

为了求解方便，假设X是经过标准化的样本矩阵（这将意味着 $\displaystyle X^{T} X=\Sigma$ ）。首先整体来看就是找到W使得重构误差最小，也称为(synthesis view):

$\underset{W\in \mathbb{R}^{d\times k} ,Z\in \mathbb{R}^{n\times k}}{\operatorname{argmin}}\left\Vert X-ZW^{T}\right\Vert ^{2}_{F} =\sum ^{d}_{j=1}\sum ^{n}_{i=1}\left( x^{( i)}_{j} -w^{T}_{j} z^{( i)}\right)^{2}$

其中 $\displaystyle \| \mathbf{A} \| _{F} =\sqrt{\sum ^{m}_{i=1}\sum ^{n}_{j=1} a_{ij}^{2}} =\sqrt{\operatorname{tr}\left(\mathbf{A}^{T}\mathbf{A}\right)}$ 。但是或许大家听得最多的是所谓的最大化方差，接下来将证明是等价的
考虑求解第一列 $\displaystyle \mathbf{w}_{1} \in R^{d\times 1}$ ，则对于第i个样本它对应着 $\displaystyle z^{( i)}_{1} =(x^{( i)})^{T}\mathbf{w}_{1}$ (这个是一个标量)，其loss函数为：
$\begin{aligned} \min J(\mathbf{w}_{1} ,z_{1}) & =\frac{1}{N}\sum ^{N}_{i=1}\left\Vert \mathbf{x}^{( i)} -\mathbf{w}_{1} z^{( i)}_{1}\right\Vert ^{2}\\ & =\frac{1}{N}\sum ^{N}_{i=1}\left(\mathbf{x}^{( i)} -\mathbf{w}_{1} z^{( i)}_{1}\right)^{T}\left(\mathbf{x}^{( i)} -\mathbf{w}_{1} z^{( i)}_{1}\right)\\ & =\frac{1}{N}\sum ^{N}_{i=1}(\mathbf{x}^{( i)})^{T}\mathbf{x}^{( i)} -2(\mathbf{x}^{( i)})^{T}\mathbf{w}_{1} z^{( i)}_{1} +z^{( i)}_{1}\mathbf{w}^{T}_{1}\mathbf{w}_{1} z^{( i)}_{1}\\ & =\frac{1}{N}\sum ^{N}_{i=1}\underbrace{(\mathbf{x}^{( i)})^{T}\mathbf{x}^{( i)}}_{const} -2(z^{( i)}_{1})^{2} +(z^{( i)}_{1})^{2}\\ & =const-\underbrace{\frac{1}{N}\sum ^{N}_{i=1} (z^{( i)}_{1})^{2}}_{Var(\mathbf{z_{1}})} \end{aligned}$

可以看到，推到最后其实就是在最大化方差，那么如果求解呢？我们把w和x代回去：

$\max J(\mathbf{w}_{1}) =\frac{1}{N}\sum ^{N}_{i=1} (z^{( i)}_{1})^{2} =\frac{1}{N}\sum ^{N}_{i=1}\mathbf{w}^{T}_{1} x^{( i)} (x^{( i)})^{T}\mathbf{w}_{1} =\mathbf{w}^{T}_{1}\hat{\Sigma }\mathbf{w}_{1}$

其中 $\displaystyle \hat{\Sigma } =\frac{1}{N}\sum ^{N}_{i=1} x^{( i)} (x^{( i)})^{T} =\frac{1}{N}\begin{Bmatrix} \sum ^{N}_{i} (x^{( i)}_{1})^{2} & \cdots & \sum ^{N}_{i} x^{( i)}_{1} x^{( i)}_{d}\\ \vdots & \ddots & \vdots \\ \sum ^{N}_{i} x^{( i)}_{d} x^{( i)}_{1} & \cdots & \sum ^{N}_{i} (x^{( i)}_{d})^{2} \end{Bmatrix}$ ，是经验协方差矩阵(注意到这是个很多个外积的求和)。然而要最大化，显然最简单的是将w设得无穷大，所以为了限制这一天，我们要加个约束 $\displaystyle \| \mathbf{w}_{1} \| =1$ ，于是

$\tilde{J}(\mathbf{w}_{1}) =\mathbf{w}_{1}^{T}\hat{\mathbf{\Sigma }}\mathbf{w}_{1} +\lambda _{1}\left(\mathbf{w}_{1}^{T}\mathbf{w}_{1} -1\right)$

对其求导：

$\begin{aligned} \frac{\partial }{\partial \mathbf{w}_{1}}\tilde{J}(\mathbf{w}_{1}) & =2\hat{\mathbf{\Sigma }}\mathbf{w}_{1} -2\lambda _{1}\mathbf{w}_{1} =0\\ \hat{\mathbf{\Sigma }}\mathbf{w}_{1} & =\lambda _{1}\mathbf{w}_{1} \end{aligned}$

最终我们发现 $\displaystyle \mathbf{w}_{1}$ 恰好是 $\displaystyle \hat{\mathbf{\Sigma }}$ 的特征向量，所以我们求PCA的时候，直接求协方差的特征向量就把w给求出来了。接下来的求 $\displaystyle \mathbf{w}_{2}$ 也是类似的，考虑

$J(\mathbf{w}_{1} ,\mathbf{z}_{1} ,\mathbf{w}_{2} ,\mathbf{z}_{2}) =\frac{1}{N}\sum ^{N}_{i=1}\left\Vert \mathbf{x}^{( i)} -z^{( i)}_{1}\mathbf{w}_{1} -z^{( i)}_{2}\mathbf{w}_{2}\right\Vert ^{2} =const-\mathbf{w}^{T}_{2}\hat{\Sigma }\mathbf{w}_{2}$

这里因为 $\displaystyle \mathbf{w}_{1}$ 是已知的，所以被当做常数项了。又因为， $\displaystyle \mathbf{w}^{T}_{1}\mathbf{w}_{2} =0,\mathbf{w}^{T}_{2}\mathbf{w}_{2} =1$

$\tilde{J}(\mathbf{w}_{2}) =-\mathbf{w}_{2}^{T}\hat{\mathbf{\Sigma }}\mathbf{w}_{2} +\lambda _{2}\left(\mathbf{w}_{2}^{T}\mathbf{w}_{2} -1\right) +\lambda _{12}\left(\mathbf{w}_{2}^{T}\mathbf{w}_{1} -0\right)$

最后求导可以得到 $\displaystyle \hat{\mathbf{\Sigma }}\mathbf{w}_{2} =\lambda _{1}\mathbf{w}_{2}$ ，是第二个特征向量，如此类推。

Probabilistic PCA

在PCA中我们假设

$X\approx Wz$

而在PPCA中我们假设

$x\sim \mathcal{N}\left( Wz,\sigma ^{2} I\right) ,\ \ z\sim \mathcal{N} (0,I)$

显然当 $\displaystyle \sigma \rightarrow 0$ 的时候，PPCA与PCA是等价的。根据上述假设，可以知道他们的分布为：

$p(x|z,W)\varpropto \exp\left( -\frac{(x-Wz)^{T} (x-Wz)}{2\sigma ^{2}}\right) ,\ \ p(z)\varpropto \exp\left( -\frac{z^{T} z}{2}\right) .$

其实PPCA的框架是很灵活的，完全可以假设p(x|z)是laplace分布(Robust PCA)，或者如果x是离散就是softmax之类的(Latent Discrete Analysis)。这里先假设高斯的，那我们可以简单推导下x和z的联合分布 $\displaystyle p(x,z|W)$ ，这个需要用到高斯求条件概率的公式。不过这里，就简单推推

$\begin{aligned} p( x,z|W) & =p(x|z,W)p(z|W)\\ & =p(x|z,W)p(z)\ \ \text{ (assuming } z\perp W)\\ & \varpropto \exp\left( -\frac{(x-Wz)^{T} (x-Wz)}{2\sigma ^{2}} -\frac{z^{T} z}{2}\right)\\ & =\exp\left( -\frac{x^{T} x-x^{T} Wz-z^{T} W^{T} x+z^{T} W^{T} Wz}{2\sigma ^{2}} +\frac{z^{T} z}{2}\right)\\ & =\exp\left( -\frac{1}{2}\left( x^{T}\left(\frac{1}{\sigma ^{2}} I\right) x+x^{T}\left(\frac{1}{\sigma ^{2}} W\right) z+z^{T}\left(\frac{1}{\sigma ^{2}} W^{T}\right) x+z^{T}\left(\frac{1}{\sigma ^{2}} W^{T} W+I\right) z\right)\right)\\ & \varpropto \exp\left( -\frac{1}{2}\left[ z^{T} \ \ x^{T}\right]\left[\begin{array}{ c c } \frac{1}{\sigma ^{2}} W^{T} W+I & -\frac{1}{\sigma ^{2}} W^{T}\\ -\frac{1}{\sigma ^{2}} W & \frac{1}{\sigma ^{2}} I \end{array}\right]\left[\begin{array}{ l } z\\ x \end{array}\right]\right) \end{aligned}$

参考文献

CPSC 540: Machine Learning Probabilistic PCA and Factor Analysis

Murphy K. Machine Learning: a Probabilistic Perspective. The MIT Press, 2012.

Jie Qiao

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
5
评论
主成分分析(PCA)，概率主成分分析(PPCA)和因子分析(FA)的区别？

介绍在PCA中，有一份样本为n，维度为d的数据X∈Rn×d\displaystyle X\in \mathbb{R}^{n\times d}X∈Rn×d，我们希望降维，于是：X≈ZWTX\approx ZW^{T}X≈ZWT而Probabilistic PCA则是假设x∼N(Wz,σ2I),  z∼N(0,I)x\sim \mathcal{N}\left( Wz,...
复制链接

扫一扫