主成分分析

lijiankou

于 2013-10-31 21:19:43 发布

阅读量3.5k

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lijiankou/article/details/13895955

版权

机器学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

主成分分析是一种降维方法，主要用于数据压缩，数据可视化以及特征提取等方面。现实中我们经常可以遇到维数很高的数据，如一张28*28的图片，可以看作维度为784。类似图片这样的高维数据，实际上各个维度之间具有高度的关联性，即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽略非重要特征,从而对数据进行压缩。这里的主成分代表一组规范正交基,每个基用 $u_m$ 表示,并且满足 $u_m^Tu_m = 1$ 。假设X表示我们的观测数据矩阵,大小为N*D, 我们希望将其压缩到 N*M的矩阵Z。主成分分析有两种直观上的理解,并且可以证明这两种直观理解是等价的。

第一种方式,我们希望找到这样一组正交基,使得映射后的数据方差最大。这样的目标函数符合我们的直观认识,因为方差表示了数据的差异性，方差大表示数据的差异性大, 即信息量大。如果在某个方向上的方差太小，或者等于 0，那么该方向的信息量小，因此在要求不高的情况下，可以忽略这样的方向。主成分分析正是基于这样的直观认识进行处理的。为了书写简单，我们假设预测数据的均值是0，如果不是0，让每个数据减去均值。一个数据 $x_n$ 映射到方向u后的坐标可以记为 $z_n =x^T_nu$ 。因此映射后在该方向上的方差为

$var(z) = \frac{1}{N}\sum_{n=1}^N(u^Tx_n)^2 = u^TSu$ (1)

其中

$S = \frac{1}{N}\sum_{n=1}^Nx_nx_n^T$ （2）

为了使映射方差最大,使用拉格朗日乘子法最大化以下目标函数

$f = u^TSu + \lambda(1 - u^Tu)$ （3）

对u进行求导,然后令其等于零,可以得到如下解,

$Su = \lambda u$ (4)

因此,u是数据协方差矩阵S的特征向量,进一步得到

$u^TSu = \lambda$ (5)

即λ是一个极值点。因此u对应的是最大特征值的特征向量,并且方差的最大值是S的最大特征值。换句话

说, S的各个特征值是数据在各个方向上映射方差的极值点。另外计算一个矩阵A在某个方向u上的方差可

以如下计算

$\sigma^2 = u^TAu = u^T(\sum_{m=1}^M\lambda_mu_mu_m^T)u = \sum_{m=1}^M\lambda_m u^Tu_mu_m^Tu = \sum_{m=1}^M\lambda_m (u^Tu_m)^2$ (6)

即它表示u在各个正交基上的方差的加权和,权重就是相应方向的特征值，如果u恰好是一个特征向量,那

么该结果就变成了 $\lambda_m$ 。这说明了特征值和方差之间的内在关系。

主成分分析的另一种解释是找到一组正交基使得映射后的误差最小。同样我们用 $\{u_m\}$ 表示我们的正次基，并且假设我们的主成分空间大小为M，数据空间大小为D，那么对于每个点 $x_n$ 我们可以有如下近似，

$\widetilde{x}_n = \sum_{m=1}^Mz_{nm}u_m + \sum_{m=M+1}^Db_mu_m$ (7)

上面的近似理解为，对于前M个向量，我们为每个数据每给出精确的映射坐标，而对于非主成分，所有数据的值都用一个常数表示。于是我们得到如下的损失函数，

$J = \frac{1}{N}\sum_{n=1}^N||x_n - \widetilde{x}_n||^2$ (8)

对损失函数求导后，得到以下解，

$z_{nm} = x_n^Tu_m$ (9)

$b_{m} = \bar{x}^Tu_m$ (10)

$||x_n - \widetilde{x}_n|| = \sum_{m=M+1}^D((x_m - \bar{x})^Tu_m)u_m$ (11)

然后将式(11)代入式(8)得到如下

$J = \frac{1}{N}\sum_{n=1}^N\sum_{m=M+1}^D(x_n^Tu_m -\bar{x}u_m)^2 = \sum_{m=M+1}^Du_m^TSu_m$ (12)

从上面的形式可以看出,它与最大化方差的形式相同,即 $u^TSu$ 的形式, 只不过现在是最小化。通过简单求导即可导出,当u是特征向量,可以取得极值λ, 因此为了使得上式最小可以选择特征值最小的特征向量作为非主成分,相应的特征值最大的特征向量作为主成分。

上面给出了主成分分析的两种直观上的理解，一种是最大化方差，一种是最小化损失函数，无论用哪种方法，得到的结果是相同的。通过主成分分析我们发现，一个矩阵的特征值实际上是该矩阵在各个方向上方差的极值，并且在特征向量处取得。

1. pattern recognition and machine learning Christopher M.Bishop p559-565

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lijiankou CSDN认证博客专家 CSDN认证企业博客

码龄17年

18: 原创

32万+: 周排名

139万+: 总排名

7万+: 访问

: 等级

910: 积分

15: 粉丝

22: 获赞

3: 评论

78: 收藏

私信

关注

热门文章

分类专栏

最新评论

伽玛分布
YYalways1: gamma(x+1)=x*gamma(x)
概率主成分分析
qq_41232281: 代码实现的话主成分个数怎末选择
概率隐语义分析和奇异值分解
Achilles_BYR: 网上很多讲原理的，哎，看来看去太隐晦也不知道作者明不明白，不能讲深入浅出，总想把简单的问题复杂化虽然也不知道你讲的对不对但是很符合我的习惯~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。