主成分分析(PCA)

最新推荐文章于 2024-02-18 09:42:26 发布

Jh_SYSU

最新推荐文章于 2024-02-18 09:42:26 发布

阅读量5.5k

点赞数

分类专栏：机器学习文章标签： PCA 机器学习算法降维数据处理

本文链接：https://blog.csdn.net/Jh_SYSU/article/details/78578004

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

主成分分析：(Principal Component Analysis)

基本思想

主成分分析，顾名思义，就是通过一定的变换将原始数据变换为一组在新维度下的数据表示，并且用数据的主要特征分量代替原数据，来达到降维的目的，并且经过降维去除噪声，发现数据中的模式。
PCA的思想是将n维特征映射到k维上(k < n)，把原先的n维特征用数目更少的k维特征取代，这k维是全新的正交特征，是旧特征的线性组合。这k维特征称为主元，这些线性组合最大化样本方差，尽量使新的k维特征互不相关。
简单点讲，对于数据量很大的数据集，或许我们很难直观的分析出该数据集的主要成分，原因就在于在坐标系下，这组数据的分布很散乱，难以观察。但是，如果我们能把这些数据在相应的空间中表示出来，也许我们就可以换个角度找出主成分：

如上图可知，在原始空间中，数据分布散乱并且毫无规律可言，但是，在PC1,PC2方向下，我们看到的又是整齐规律的数据分布。而如何找到PC1,PC2方向正是PCA要做的，就是在更高维的数据中，提取出我们想要的主成分，在这个提取过程中，也就达到了数据降维的目的，同时我们也可以通过PCA方法衡量这些主成分到底占了整个数据的多少信息。

补充：
PCA为什么可以通过一定的变换将原始数据变换成更低维的数据代替？原因就在于原始数据在多个维度(或影响因素)下反映的信息存在一定程度上的重叠(不同维度之间存在相关关系)，那么我们就可以用比原来更少的维度(线性无关)来描绘原来的数据，当这些维度可以保留住数据中那些最重要的信息时，数据降维的目的就实现了。

PCA原理详解

预备知识

协方差：通常用Cov表示
协方差是一种用来度量两个变量关系的统计量，其定义为：

C o v (X, Y) = \sum n i = 1 ( X i - X ¯ ¯ ¯ ) ( Y i - Y ¯ ¯ ¯ ) n - 1

$Cov(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{n-1}$
其中，

X ¯ ¯ ¯ = \sum n i = 1 X i n ， Y ¯ ¯ ¯ = \sum n i = 1 Y i n

$\overline{X}=\frac{\sum_{i=1}^{n}X_i}{n}，\overline{Y}=\frac{\sum_{i=1}^{n}Y_i}{n}$ 分别为

X $X$ 和

Y $Y$ 的均值
特别地：

当 X = Y 时 ， C o v (X, X) = \sum n i = 1 ( X i - X ¯ ¯ ¯ ) 2 n - 1 = V a r (X)

$当X=Y时，Cov(X,X)=\frac{\sum_{i=1}^{n}(X_i-\overline{X})^{2} } {n-1}=Var(X)$
此外，还有：

当 X ¯ ¯ ¯ = 0, Y ¯ ¯ ¯ = 0 时, C o v (X, Y) = \sum n i = 1 ( X i ) ( Y i ) n - 1

$当\overline{X}=0, \overline{Y}=0时,Cov(X,Y)=\frac{\sum_{i=1}^{n}(X_i)(Y_i)} {n-1}$
这一过程叫做零均值化，通过每一个数据减去其列对应的均值，达到简化代码的目的。

以上讲的Cov(X,Y)都是二维的，当面对更高维的数据时，我们通常使用协方差矩阵：

C n \times n = (c i, j, c j, i = C o v (D i m i, D i m j))

$C_{n \times n}=(c_{i,j}, c_{j,i}=Cov(Dim_i,Dim_j))$
例如，当n=3时，

C 3 \times 3 = ⎛ ⎝ ⎜ C o v (x, x) C o v (y, x) C o v (z, x) C o v (x, y) C o v (y, y) C o v (z, y) C o v (x, z) C o v (y, z) C o v (z, z) ⎞ ⎠ ⎟

$C_{3 \times 3}=\begin{pmatrix} Cov(x,x) & Cov(x,y) & Cov(x, z) \\ Cov(y,x) & Cov(y,y) & Cov(y,z) \\ Cov(z,x) & Cov(z, y) & Cov(z,z) \end{pmatrix}$
可见，协方差矩阵为对称矩阵，其对角线为各个维度上的方差。
注：方差是衡量数据分布的一个重要的指标。数据的方差越大，则代表数据的分布越分散。PCA便是根据协方差矩阵对角线上的值的大小来选择新轴的

特征值与特征向量：
一般来说，如果一个

n $n$ 阶矩阵

A $A$ 满足：

A v ⃗ = λ v ⃗

$A\vec{v}=\lambda \vec{v}$ 这时，

v⃗ $\vec{v}$ 称为矩阵

A $A$ 的特征向量，

λ $\lambda$ 称为矩阵

A $A$ 的特征值。
通常，在物理意义上，一个高维空间的线性变换可以想象是在对一个向量在各个方向上进行了不同程度的变换，而特征向量之间是线性无关的，它们对应了最主要的变换方向，同时特征值表达了相应的变换程度。值得注意的是：一个矩阵的一组特征向量

{v1,v2,…,vn} $\{v_1,v_2,\dots,v_n\}$ 就是一组正交向量。

PCA的算法步骤

第一步：对于原始数据，进行去均值化，即所有的样例数据减去其对应的均值；
第二步：计算协方差矩阵；
第三步：计算协方差矩阵的特征向量与特征值；
第四步：将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵；
第五步：将样本点投影到选取的特征向量上。假设样例数为 $m$ ，特征数为 $n$ ，减去均值后的样本矩阵为 $DataAdjust$ ( $m\times n$ )，协方差矩阵是 $n\times n$ ，选取的k个特征向量组成的矩阵为 $EigenVectors$ ( $n\times k$ )。那么投影后的数据 $FinalData$ 为： $F i n a l D a t a (m \times k) = D a t a A d j u s t (m \times n) \times E i g e n V e c t o r s (n \times k)$ $FinalData(m \times k) = DataAdjust(m \times n) \times EigenVectors(n \times k)$

整个PCA算法流程貌似非常简单，就是求协方差的特征值和特征向量，然后做数据转换。但是有没有觉得很神奇，为什么求协方差的特征向量就是最理想的k维向量？其背后隐藏的意义是什么？整个PCA的意义是什么？

推导思路

回过头来看PCA的目的，原始数据是分布在以 $n$ 个不同的变量为坐标轴组成的N维空间上，数据在一些轴上（假设其数目为 $n$ ）的分布存在一定程度的相关关系，PCA的目的就是找到彼此线性无关的新的一些轴（ $k$ < $n$ ）来代替这 $n$ 条轴，同时要求在由这些轴组成的空间上，数据最重要的那些信息可以被保留下来。

通过PCA的算法步骤，我们可以知道，我们就用协方差的特征向量的方向来代表这k条轴的方向。那么，为什么协方差矩阵的特征向量就是k维理想特征呢？

以下用最大方差理论和最小误差理论解释上述问题：

1、最大方差理论

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。所以，我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

假设，下图有5个样本点：（已经做过预处理，均值为0，特征方差归一）

将样本投影到某一维上，这里用一条过原点的直线表示：

那么，根据我们的方差最大化理论，应当选择使得样本分布方差最大的情况，即如上图可知，问题转化为：找出最优的 $u$ ，使得投影后的样本方差最大。(定义投影向量 $\vec{u}$ ，可令其为单位向量，有： $\vec{u}^T \vec{u}=1$ )
投影后方差为：

V a r (X) = 1 n \sum i = 1 n ∣ ∣ ∣ x i \to \cdot u \to ∣ ∣ ∣ = 1 n \sum i = 1 n (x T i \cdot u) 2

$\begin{equation} \begin{aligned} Var(X) & = \frac{1} {n} \sum_{i=1}^{n} \left| \overrightarrow{x_i} \cdot \overrightarrow{u} \right| \\ & = \frac{1} {n} \sum_{i=1}^{n} {\left( x^T_i \cdot u \right) }^2 \end{aligned} \end{equation}$

也即是：

$V a r (X) = 1 n \sum i = 1 n u T x (i) T x (i) u = u T (1 n \sum i = 1 n x (i) T x (i)) u$ $\begin{equation} \begin{aligned} Var(X) & =\frac{1} {n} \sum_{i=1}^{n}u^T {x^{(i)}}^T x^{(i)} u\\ & = u^T \left(\frac {1} {n} \sum_{i=1}^{n} {x^{(i)}}^T x^{(i)} \right) u \end{aligned} \end{equation}$
令：
$X = [x (1) x (2) \dots x (n)]$ $X=\begin{bmatrix} x^{(1)} & x^{(2)} &\cdots & x^{(n)} \end{bmatrix}$
那么，有：
$X \cdot X T = \sum i = 1 n x (i) T x (i)$ $X \cdot X^T = \sum_{i=1}^{n} {x^{(i)}}^T x^{(i)}$
$V a r (X) = 1 n u T X \cdot X T u$ $\begin{equation} \begin{aligned} Var(X) = \frac{1} {n} u^T X \cdot X^T u \end{aligned} \end{equation}$

对于 $XX^T$ ，假设其某一特征向量为 $\xi$ ，对应的特征值为 $\lambda$ ，则，存在： $X X T ξ = λ \cdot ξ \Rightarrow (X X T ξ) T ξ = (λ ξ) T ξ = λ ξ T ξ \geq 0$ $XX^T \xi = \lambda \cdot \xi \\ \Rightarrow \left( XX^T \xi \right)^T \xi = \left( \lambda \xi \right)^T \xi = \lambda \xi^T \xi \geq 0$
即， $\lambda \geq 0$
故，可知 $XX^T$ 为半正定矩阵，而 $u^T X \cdot X^T u$ 为半正定矩阵的二次型，所以，目标函数 $max\{Var(x)\}=max\{\dfrac{1} {n} u^T X X^T u \}$ 必定存在最优解。

对于 $\dfrac{1} {n} u^T X X^T u =u^T (\dfrac{1} {n} X X^T) u$ ，易知，其中 $\dfrac{1} {n} X X^T$ 即为协方差矩阵 $C$ ，不妨记为： $\Sigma$ .
令 $\Lambda = \dfrac{1} {n} u^T X X^T u$ ，则有： $Λ = u T Σ u$ $\Lambda = u^T \Sigma u$ 可推出：(由于 $\vec{u}^T \vec{u}=1$ ) $u Λ = u u T Σ u = Σ u$ $u \Lambda = u u^T \Sigma u = \Sigma u$ 即： $Σ u = Λ u$ $\Sigma u = \Lambda u$
所以：由上式可知， $\vec{u}$ 即为协方差矩阵 $\Sigma$ 的特征向量， $\Lambda = \dfrac{1} {n} u^T X X^T u$ 即为协方差矩阵 $\Sigma$ 的特征值。最佳的投影直线是特征值 $\lambda$ 最大时对应的特征向量 $\vec{u_1}$ ，其次是 $\lambda$ 第二大对应的特征向量 $\vec{u_2}$ ，依次类推。

因此，我们只需要求解协方差矩阵的特征向量与特征值，得到的前 $k$ 大特征值对应的特征向量就是最佳的 $k$ 维新特征，而且这 $k$ 维新特征是正交的。
在得到前 $k$ 个特征向量 $\vec{u}$ 之后，数据 $x^{(i)}$ 可以通过变换得到投影后的数据： $F i n a l D a t a (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ u T 1 x (i) u T 2 x (i) \dots u T k x (i) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $FinalData^{(i)} = \begin{bmatrix} u^{T}_1 x^{(i)} \\ u^{T}_2 x^{(i)} \\ \cdots \\ u^{T}_k x^{(i)} \end{bmatrix}$ 其中的第 $j$ 维就是 $x^{(i)}$ 在 $u_j$ 下的投影。
至此，我们就得到了我们想要的经过降维处理的数据 $FinalData$ 。

注：
可以通过线性代数知识求解 $\Lambda$ 的最大值：假设协方差矩阵的特征值为： $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0$ ；根据 $Λ = 1 n u T 1 X X T u 1 = 1 n < X T u 1, X T u 1 > = 1 n ∥ ∥ X T u 1 ∥ ∥ 22 = 1 n (∥ ∥ X T u 1 ∥ ∥ 2 ∥ u 1 ∥ 2) 2$ $\Lambda = \dfrac{1} {n} u^T_1 X X^T u_1 = \dfrac{1} {n} <X^T u_1, X^T u_1> = \dfrac{1} {n} {\begin{Vmatrix} X^T u_1 \end{Vmatrix}}^2_2 = \dfrac{1} {n} {\left( \dfrac{{\begin{Vmatrix} X^T u_1 \end{Vmatrix}}_2} {{\begin{Vmatrix} u_1 \end{Vmatrix}}_2} \right)}^2$ 而 $Λ = ∥ ∥ X T u 1 ∥ ∥ 2 ∥ u 1 ∥ 2 \leq λ 1 - - \sqrt = σ 1$ $\Lambda = \dfrac{{\begin{Vmatrix} X^T u_1 \end{Vmatrix}}_2} {{\begin{Vmatrix} u_1 \end{Vmatrix}}_2} \leq \sqrt{\lambda_1} = \sigma_1$ 即： $Λ \leq λ 1 - - \sqrt$ $\Lambda \leq \sqrt{\lambda_1}$

2、最小误差理论

回顾我们前面探讨的是求一条直线，使得样本点投影到直线上的点的方差最大。再回想我们学过的线性回归，目的也是求一个线性函数使得直线能够最佳拟合样本点，那么我们能不能认为最佳的直线就是回归后的直线呢？
因此，我们打算选用一种评价直线好坏的方法，来代替评价找到的最佳直线是否为最佳拟合直线。
这种评价直线好坏的方法就是，用点到直线的距离 $d^2$ 来度量。
记 $x_{i}$ 在直线上的投影为 ${x_{i}}^{'}$ ；那么我们就是要最小化
$d 2 = \sum i = 1 n ∥ ∥ x i' - x i ∥ ∥ 2$ $d^2 = \sum_{i=1}^{n}{\begin{Vmatrix} {x_i}^{'} - x_i \end{Vmatrix}}^2$
这个公式称作最小平方误差（Least Squared Error）。

而确定一条直线，一般只需要确定一个点，并且确定方向即可。
第一步确定点：
假设要在空间中找一点 $x_0$ 来代表这n个样本点，就需要使得 $J 0 (x 0) = \sum k = 1 n ∥ x 0 - x k ∥ 2$ $J_0(x_0) = {\sum_{k=1}^{n} \begin{Vmatrix} x_0 - x_k \end{Vmatrix}^2}$ 最小
假设 $\bar{X}$ 为这n个样本点的均值，那么 $J 0 (x 0) = \sum k = 1 n ∥ ∥ (x 0 - X ¯) - (x k - X ¯) ∥ ∥ 2 = \sum k = 1 n ∥ ∥ x 0 - X ¯ ∥ ∥ 2 + \sum k = 1 n ∥ ∥ x k - X ¯ ∥ ∥ 2$ $\begin{equation} \begin{aligned} J_0(x_0) & = {\sum_{k=1}^{n} \begin{Vmatrix} (x_0 - \bar{X}) - (x_k - \bar{X}) \end{Vmatrix}^2} \\ & = \sum_{k=1}^{n} \begin{Vmatrix} x_0 - \bar{X} \end{Vmatrix}^2 + \sum_{k=1}^{n} \begin{Vmatrix} x_k - \bar{X} \end{Vmatrix}^2 \end{aligned} \end{equation}$ 后项与 $x_0$ 无关，看做常量，而 $J_0(x_0) \geq 0$ 因此最小化 $J_0(x_0)$ 时， $x_0 = \bar{X}$
即： $\bar{X}$ 可以代表这n个样本点。

第二步确定方向：
假设直线的方向是单位向量 $\vec{e}$ 。那么直线上任意一点，比如 ${x_{k}}^{'}$ 就可以用点 $\bar{X}$ 和 $\vec{e}$ 来表示：(其中 $d_k$ 是点 ${x_{k}}^{'}$ 到 $\bar{X}$ 的距离)
$x k' = X ¯ + d k e ⃗$ ${x_{k}}^{'} = \bar{X} + d_k \vec{e}$
则此时平方误差为： $J 0 (x' k) = \sum k = 1 n ∥ ∥ (X ¯ + d k e ⃗) - x k ∥ ∥ 2 = \sum k = 1 n ∥ ∥ d k e ⃗ - (x k - X ¯) ∥ ∥ 2 = \sum k = 1 n d 2 k ∥ e ⃗ ∥ 2 - 2 \sum k = 1 n d k e ⃗ T (x k - X ¯) + \sum k = 1 n ∥ x k - X ¯ ∥ 2$ $\begin{equation} \begin{aligned} J_0(x_{k}^{'}) & = {\sum_{k=1}^{n} \begin{Vmatrix} (\bar{X} + d_k \vec{e}) - x_k \end{Vmatrix}^2} \\ & = {\sum_{k=1}^{n} \begin{Vmatrix} d_k \vec{e} - (x_k - \bar{X}) \end{Vmatrix} ^2} \\ & = \sum_{k=1}^{n} d_k^2 \| \vec{e} \|^2 - 2 \sum_{k=1}^{n} d_k \vec{e}^{T} (x_k - \bar{X}) + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \end{aligned} \end{equation}$
首先，对 $d_k$ 进行求偏导数，得到： $d k = e ⃗ T (x k - X ¯)$ $d_k = \vec{e}^T \left( x_k - \bar{X} \right)$
代入 $J_0(x_{k}^{'})$ 中可得： $J 0 (x' k) = \sum k = 1 n d 2 k - 2 \sum k = 1 n d 2 k + \sum k = 1 n ∥ x k - X ¯ ∥ 2 = - \sum k = 1 n d 2 k + \sum k = 1 n ∥ x k - X ¯ ∥ 2 = - \sum k = 1 n [e ⃗ T (x k - X ¯)] 2 + \sum k = 1 n ∥ x k - X ¯ ∥ 2 = - \sum k = 1 n e ⃗ T (x k - X ¯) (x k - X ¯) T e ⃗ + \sum k = 1 n ∥ x k - X ¯ ∥ 2 = - \sum k = 1 n e ⃗ T S e ⃗ + \sum k = 1 n ∥ x k - X ¯ ∥ 2$ $\begin{equation} \begin{aligned} J_0(x_{k}^{'}) & = \sum_{k=1}^{n} d_k^2 - 2 \sum_{k=1}^{n} d_k^2 + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \\ & = - \sum_{k=1}^{n} d_k^2 + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \\ & = - \sum_{k=1}^{n}{\left[ \vec{e}^T \left( x_k - \bar{X} \right)\right]}^2 + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \\ & = - \sum_{k=1}^{n} { \vec{e}^T } \left( x_k - \bar{X} \right)\left( x_k - \bar{X} \right)^T \vec{e} + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \\ & = - \sum_{k=1}^{n} { \vec{e}^T } S \vec{e} + \sum_{k=1}^{n} \|x_k - \bar{X} \|^2 \end{aligned} \end{equation}$ 其中， $S= \left( x_k - \bar{X} \right) \cdot \left( x_k - \bar{X} \right)^T$ ; $S$ 被称作散列矩阵(scatter matrix)
则，此时要使 $J_0(x_{k}^{'})$ 最小，即是要 $\vec{e}^T S \vec{e}$ 最大，引入拉格朗日乘子 $\lambda$ :
令：(由于 $\| e \|^2 = 1$ )
$u = e ⃗ T S e ⃗ - λ (e ⃗ T e ⃗ - 1)$ $u = \vec{e}^T S \vec{e} - \lambda (\vec{e}^T \vec{e} - 1)$
求偏导：
$\partial u \partial e = 2 S e - 2 λ e$ $\frac{\partial u} {\partial e} = 2Se - 2 \lambda e$
令导数为零，得：
$S e = λ e$ $Se = \lambda e$
即：
$1 n - 1 S e = 1 n - 1 λ e$ $\dfrac{1} {n-1} Se = \dfrac{1} {n-1} \lambda e$
而 $1 n - 1 S = 1 n - 1 (x k - X ¯) \cdot (x k - X ¯) T$ $\dfrac{1} {n-1} S = \dfrac{1} {n-1} \left( x_k - \bar{X} \right) \cdot \left( x_k - \bar{X} \right)^T$
即： $\dfrac{1} {n-1} S$ 即为协方差矩阵 $C$ ， $Ce = \lambda^{'} e$

故，同样可知对协方差矩阵求特征向量，就是求解样本点的投影直线的最佳拟合方向，前k个特征向量的方向就是前k个最佳拟合直线方向，也即为前k个主成分方向。

得到k个主成分方向之后，就可以得到投影之后的数据 $FinalData$ 了。

至此，PCA算法的推导过程也就结束了，我们可以看到，整个推导过程重点就在于怎样论证k个特征向量方向就是我们想要的k个主成分方向，这里用了两个理论：最大方差理论和最小平方误差理论。

参考资料：

http://blog.csdn.net/zhongkelee/article/details/44064401
http://blog.csdn.net/hit1524468/article/details/60323173
https://www.zhihu.com/question/30094611/answer/120499954
http://blog.csdn.net/dongtinghong/article/details/14216139
http://blog.sciencenet.cn/blog-1583812-814868.html