PCA笔记

最新推荐文章于 2023-02-20 18:49:55 发布

pibaixinghei

最新推荐文章于 2023-02-20 18:49:55 发布

阅读量789

点赞数 1

分类专栏：学习小笔记文章标签： PCA

本文链接：https://blog.csdn.net/pibaixinghei/article/details/54916598

版权

学习小笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

PCA（主成分分析）是一种常用的数据分析和降维方法。通过线性变换，PCA将高维数据转换为线性无关的低维表示，最大化保留原始信息。主要步骤包括计算协方差矩阵，对协方差矩阵进行特征值分解，选取最大的k个特征值对应的特征向量作为新的基，从而实现数据的降维。PCA的目标是找到一组正交基，使得数据在这些基上的投影方差最大，同时协方差为0。

摘要由CSDN通过智能技术生成

PCA

　　之前有看过PCA，但还只是浅显的了解了一下，现在在这里顺着思路再整理一下，方便自己以后回顾，参考的这位博主http://blog.codinglabs.org/articles/pca-tutorial.html，十分感谢他写的这么仔细。
　　

1.什么是PCA

　　PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。
　　　　

2.怎么个PCA

　　确定一个向量需要一个确定的基，如果我们把原始数据看成有很多个基的向量，那么我们的目标就要把这个向量用较少的基表示并且损失较少。
　　

3.如何表示

　　想要解决一个问题，我们先要会描述他，一般的，如果我们有M个N维向量，想将其变换为由R个N维基表示的新空间中，那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，那么两矩阵的乘积AB就是变换结果，从维数角度看是（R*N）x（N*M）=R*M即M个R维向量，其中AB的第m列为B中第m列变换后的结果。数学表示：

⎛ ⎝ ⎜ ⎜ ⎜ ⎜ p 1 p 2 ⋮ p R ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ (a 1 a 2 \dots a M) = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ p 1 a 1 p 2 a 1 ⋮ p R a 1 p 1 a 2 p 2 a 2 ⋮ p R a 2 \dots \dots ⋱ \dots p 1 a M p 1 a M ⋮ p 1 a M ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$\begin{pmatrix} p_{1}\\ p_{2}\\ \vdots\\ p_{R}\\ \end{pmatrix}\begin{pmatrix} a_{1} &a_{2} &\cdots &a_{M} \end{pmatrix}= \begin{pmatrix} p_{1}a_{1} &p_{1}a_{2} &\cdots &p_{1}a_{M} \\ p_{2}a_{1} &p_{2}a_{2} &\cdots &p_{1}a_{M} \\ \vdots &\vdots &\ddots &\vdots \\ p_{R}a_{1} &p_{R}a_{2} &\cdots &p_{1}a_{M} \end{pmatrix}$
上式R可以小于N，也就达到了我们降维的目标。
上述表达同时给矩阵相乘找到了一种物理解释： 两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。

4.如何选择基才是最优的

　　如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。这种分散程度，可以用数学上的方差来表述。此处，一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：

V a r (a) = 1 m \sum i = 1 m (a i - μ) 2

$Var(a)=\frac{1}{m}\sum_{i=1}^m{(a_i-\mu)^2}$ 将每个字段的均值都化为0，则变为：

V a r (a) = 1 m \sum i = 1 m a 2 i

$Var(a)=\frac{1}{m}\sum_{i=1}^m{a_i^2}$ 于是上面的问题被形式化表述为： 寻找一个基，使得所有数据变换为这个基上的坐标表示后，方差值最大。
　　　　

5.基与基之间的关系怎么办

　　从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段均值为0，则：

C o v (a, b) = 1 m \sum i = 1 m a i b i

$Cov(a,b)=\frac{1}{m}\sum_{i=1}^m{a_ib_i}$

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的基之间一定是正交的。

6.降维问题的优化目标

　　将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。
　　

7.进一步

　　我们希望能将基与基协方差以及基内方差统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是我们来了灵感：

假设我们有a,b,c字段，那么我们将它们按行组成矩阵X：

X = ⎛ ⎝ ⎜ a 1 b 1 c 1 a 2 b 2 c 2 \dots \dots \dots a m b m c m ⎞ ⎠ ⎟

$X=\begin{pmatrix} a_1 & a_2 & \cdots & a_m \\ b_1 & b_2 & \cdots & b_m\\c_1 & c_2 & \cdots & c_m \end{pmatrix}$

然后我们用X乘以X的转置，并乘上系数1/m：

1 m X X T = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 m \sum i = 1 m a 2 i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m a i c i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m b 2 i 1 m \sum i = 1 m b i c i 1 m \sum i = 1 m a i c i 1 m \sum i = 1 m b i c i 1 m \sum i = 1 m c 2 i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

$\frac{1}{m}XX^\mathsf{T}=\begin{pmatrix} \frac{1}{m}\sum_{i=1}^m{a_i^2} & \frac{1}{m}\sum_{i=1}^m{a_ib_i}&\frac{1}{m}\sum_{i=1}^m{a_ic_i} \\ \frac{1}{m}\sum_{i=1}^m{a_ib_i} & \frac{1}{m}\sum_{i=1}^m{b_i^2}&\frac{1}{m}\sum_{i=1}^m{b_ic_i} \\\frac{1}{m}\sum_{i=1}^m{a_ic_i} & \frac{1}{m}\sum_{i=1}^m{b_ic_i} &\frac{1}{m}\sum_{i=1}^m{c_i^2}\end{pmatrix}$

这个矩阵对角线上的元素是每个基的方差，而其它元素是基之间的协方差。两者被统一到了一个矩阵。根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：
　　设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设 $C=\frac{1}{m}XX^\mathsf{T}$ ，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。
　　

8.协方差矩阵对角化

　　根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：
　　设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

D = = = = = 1 m Y Y T 1 m (P X) (P X) T 1 m P X X T P T P (1 m X X T) P T P C P T

$\begin{array}{l l l} D & = & \frac{1}{m}YY^\mathsf{T} \\ & = & \frac{1}{m}(PX)(PX)^\mathsf{T} \\ & = & \frac{1}{m}PXX^\mathsf{T}P^\mathsf{T} \\ & = & P(\frac{1}{m}XX^\mathsf{T})P^\mathsf{T} \\ & = & PCP^\mathsf{T} \end{array}$

　　现在事情很明白了！我们要找的P不是别的，而是能让原始协方差矩阵对角化的P。换句话说，优化目标变成了寻找一个矩阵P，满足 $PCP^\mathsf{T}$ 是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。