主成分分析（PCA）原理解析

最新推荐文章于 2023-01-28 12:10:17 发布

博客已停更

最新推荐文章于 2023-01-28 12:10:17 发布

阅读量925

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/u014134327/article/details/100093841

版权

机器学习基础专栏收录该内容

17 篇文章 9 订阅

订阅专栏

文章目录

基变换
主成分分析性质
协方差矩阵
主成分分析原理
主成分分析k值的选取
Acknowledge

基变换

若使用常用的二维直角坐标系（基为 $(1; 0)$ 和 $(0; 1)$ ）来表示向量 $(3; 2)$ ，可得到下图，
在这里插入图片描述
当以 $(\frac{1}{\sqrt{2}}; \frac{1}{\sqrt{2}})$ 和 $(-\frac{1}{\sqrt{2}}; \frac{1}{\sqrt{2}})$ 为基（一般基的模为1）时，上图转换如下，

那么原先的向量 $(3; 2)$ 在新坐标下表示为 $(\frac{5}{\sqrt{2}};-\frac{1}{\sqrt{2}})$ ，简单来说，就是把这个向量投影到新坐标系对应基的方向上，投影得到的长度就是那一维的坐标值的绝对值。把向量 $\bm{a}$ 投影到基 $\bm{b}$ 上，有 $\bm{a}^{\text{T}}\bm{b} = |\bm{a}| \cdot |\bm{b}| \cdot \cos \theta$ ，而基 $\bm{b}$ 的模为 $1$ ，可知 $\bm{a}^{\text{T}}\bm{b} = |\bm{a}| \cdot \cos \theta$ ，这个值恰巧就是向量 $\bm{a}$ 在基 $\bm{b}$ 上的坐标值。

在这里插入图片描述

主成分分析性质

参考西瓜书，主成分分析的超平面应具有如下性质：

最近重构性：样本点到这个超平面的距离都足够近；
最大可分性：样本点在这个超平面上的投影能尽可能分开。

在这里插入图片描述
实质上，基于最近重构性得到的主成分分析和基于最大可分性得到的主成分分析是等价的。以上图为例，左图中×点距离超平面足够近，并且投影得到的点也足够分开；右图中×点距离超平面就比较远（虚线都比较长），并且投影后距离彼此都很近，不满足最大可分性。

信号处理理论认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。根据方差最大化理论，我们会选择左图，投影后的样本点方差最大（这也是说PCA可以降噪的原因）。

在这里插入图片描述
上图中，椭圆长轴就是主成分方向，因为数据在该方向上的投影代表了原始数据的绝大部分信息， $u_1$ 方向的方差也最大，把 $u_2$ 方向去掉后影响也不大（两者相关性很小，想象在原坐标系数据两个维度呈正相关，去掉纵轴或横轴会丢失大部分信息）。

协方差矩阵

在这里插入图片描述
观察上图，图c两个变量具有很高的相关性， $r_1$ 和 $r_2$ 上的方差没有明显区别，若进行如下转换（也就是PCA要干的事情），则两个变量间相关性几乎为零， $r_1$ 上的方差很大，而 $r_2$ 上的方差很小，并且两个维度相关性较小。

在这里插入图片描述

协方差可以用来考量变量间的相关性，变量相关性越小，协方差接近 $0$ 。记中心化后的数据为
$\bm{X} = (\bm{x}_1, \bm{x}_2, \cdots, \bm{x}_n)，（假设有n个样例）$
其中
$\bm{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}，（假设数据有m个维度，且已经中心化处理）$
协方差矩阵计算如下
$C_\bm{X} = \frac{1}{n-1} \bm{X}\bm{X}^{\text{T}}。$
举个例子，假设数据就两个维度，当数据分布如下时，
在这里插入图片描述
观察图像，水平方向具有比较大的方差（数据偏离平均较大），可以想象 $C_{11}$ （代表 $x_1$ 方差）应该比较大，垂直方向上，方差较小， $C_{22}$ 应该较小，再看 $x_1$ 和 $x_2$ 的相关性，应该是比较小的，那么 $C_{12}$ 和 $C_{21}$ 也应该比较小，可能我们算出的协方差矩阵类似于这样：
$\begin{bmatrix} 95 & 1 \\ 1 & 5 \end{bmatrix}，$
而当数据分布如下时，
在这里插入图片描述
类似的分析，在水平方向和初值方向的方差都挺大的，并且容易看出 $x_1$ 和 $x_2$ 呈现正相关性，那么得到的协方差矩阵应该类似于这样：

$\begin{bmatrix} 50 & 40 \\ 40 & 50 \end{bmatrix}。$

主成分分析原理

主成分分析就是希望找到一个新的坐标系，将数据投影到该坐标系上后，能够找到一个超平面，使得 $C_\bm{X}$ 对角化（参考上一章节的两个例子）。

记新坐标系基向量为 $\bm{w}$ ，由基变换可知，样例 $\bm{x}$ 在新坐标系该基向量上的坐标值为 $\bm{x}^{\text{T}}\bm{w} = \bm{w}^{\text{T}}\bm{x}$ ，新坐标系下的协方差矩阵为
$C_{\bm{Y}} = \frac{1}{n-1} \bm{W}^{\text{T}}\bm{X} \bm{X}^{\text{T}} \bm{W}，$
优化目标为使得 $C_\bm{W}$ 对角线上的元素从大到小排列，且其余元素接近 $0$ 。

通俗点讲，样例 $\bm{x}_i$ 在基 $\bm{w}$ 上的坐标值为 $\bm{x}_i^{\text{T}} \bm{w}$ ，该方向上的方差为

$\begin{aligned} var &= \frac{1}{n-1} \sum^n_{i=1}(\bm{x}_i^{\text{T}} \bm{w})^2 &（注意数据已中心化处理过）\\ &= \frac{1}{n-1} \sum^n_{i=1}(\bm{x}_i^{\text{T}} \bm{w})^{\text{T}} (\bm{x}_i^{\text{T}} \bm{w}) \\ &= \frac{1}{n-1} \sum^n_{i=1} (\bm{w}^{\text{T}}\bm{x}_i \bm{x}_i^{\text{T}} \bm{w}) \\ & = \bm{w}^{\text{T}} \big(\frac{1}{n-1} \sum^n_{i=1} (\bm{x}_i \bm{x}_i^{\text{T}}) \big) \bm{w} & （原坐标系数据协方差矩阵） \\ &= \bm{w}^{\text{T}} \big( \frac{1}{n-1} \bm{X}\bm{X}^{\text{T}} \big) \bm{w}， \end{aligned}$
我们期望 $v a r$ 尽可能的大（所以西瓜书的优化目标为最大化矩阵的迹），有
$\begin{cases} \max \limits_{\bm{w}} ~ \bm{w}^{\text{T}} \Lambda \bm{w} & （记C_\bm{X}为\Lambda） \\ \text{s.t.} ~ \| \bm{w} \| = 1 \end{cases}，$
构造拉格朗日函数，有
$L(\bm{w}) = \bm{w}^{\text{T}} \Lambda \bm{w} + \lambda ( 1 - \bm{w}^\text{T} \bm{w} )，$
对 $\bm{w}$ 求导，有 $\Lambda \bm{w} = \lambda \bm{w}$ ，这刚好是特征向量、特征值的形式，且刚好
$\bm{w}^{\text{T}} \Lambda \bm{w}=\bm{w}^{\text{T}} (\lambda \bm{w})=\lambda，$
取最大特征值时，该方向方差最大，并且基向量为该特征值对应的特征向量；取第二大特征值时同理，以此类推。

此外， $C_\bm{X}$ 是实对称矩阵，它具有很多良好性质，例如：

实对称矩阵不同特征值对应的特征向量必然正交；
设特征向量 $\lambda$ 重数为 $r$ ，则必然存在 $r$ 个线性无关的特征向量对应于 $\lambda$ ，因此可以将这r个特征向量单位正交化。

因此，通过筛选的特征向量必能组成新的坐标系。

主成分分析k值的选取

降维后低维空间的维数 $k$ 通常由用户事先选取，可通过下式利用阈值 $t$ 来确定最小 $k$ 值，例如设置 $t = 0.95$ ，挑选使下式成立的最小 $k$ 值：
$\frac{\sum^k_{i=1} \lambda_i}{\sum^m_{i=1} \lambda_i} \geq t，$
其中 $\lambda_i$ 是 $\Lambda$ 从大到小排列的特征值。

Acknowledge

周志华著作《机器学习》
主成分分析（PCA）原理详解
 PCA的数学原理
 主成分分析PCA(principal component analysis)原理
 主成分分析（PCA）原理详解
 【机器学习】降维——PCA（非常详细）

博客已停更

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
主成分分析（PCA）原理解析

文章目录基变换主成分分析性质协方差矩阵主成分分析原理主成分分析k值的选取Acknowledge基变换若使用常用的二维直角坐标系（基为(1;0)(1; 0)(1;0)和(0;1)(0; 1)(0;1)）来表示向量(3;2)(3; 2)(3;2)，可得到下图，当以 (12;12)(\frac{1}{\sqrt{2}}; \frac{1}{\sqrt{2}})(21;21) 和(−12...
复制链接

扫一扫