主成分分析（PCA）及其MATLAB的实现方法

最新推荐文章于 2024-07-07 20:11:19 发布

置顶 S.Z.Zheng

最新推荐文章于 2024-07-07 20:11:19 发布

阅读量1.5w

点赞数 32

分类专栏：笔记数据压缩原理与应用 MATLAB 文章标签： matlab pca降维

本文链接：https://blog.csdn.net/szzheng/article/details/104451760

版权

数据压缩原理与应用同时被 3 个专栏收录

14 篇文章 3 订阅

订阅专栏

笔记

4 篇文章 4 订阅

订阅专栏

MATLAB

4 篇文章 0 订阅

订阅专栏

文章目录

概述
- PCA的目的
- PCA的几何意义
原理与步骤简述
MATLAB的实现方法
应用

说明：下文中，粗斜体字母均表示矩阵（如 $\boldsymbol A$ ）；为不引起歧义，列向量也均加箭头表示（如 $\vec a$ ）

概述

PCA的目的

假设现在有这样一个情景：现在要统计并可视化分析男大学生体测成绩，如果只参考立定跳远和1000m成绩两项指标，我们可以以立定跳远成绩作为 $x$ 轴，1000m成绩作为 $y$ 轴做出散点图，每个点代表一个学生；若统计三项指标，我们也可以在三维空间中做出散点图；但如果要统计四项乃至更多的指标，我们就无法再以此方法进行数据的可视化。

而主成分分析（Principal Component Analysis，PCA）的方法，可以将具有多个观测变量的高维数据集降维，使人们可以从事物之间错综复杂的关系中找出一些主要的方面，从而能更加有效地利用大量统计数据进行定量分析，并可以更好地进行可视化、回归等后续处理。

PCA的几何意义

先将问题简化为二维情形。有 $N$ 个样品，具有两个观测变量 $X_1,\ X_2$ ，做出散点图（如下图中的蓝色点），这样，在由 $X_1,\ X_2$ 组成的坐标空间中， $N$ 个样品的分布情况如带状。现在问：如果现在要将两个观测变量缩减为一个，应该如何选取？

可以直观地看出，这 $N$ 个样品无论沿 $X_1$ 轴还是沿 $X_2$ 轴方向，均有较大的离散性（其离散程度可以分别用观测变量 $X_1$ 的方差和 $X_2$ 的方差定量表示），也就是说，只考虑 $X_1,\ X_2$ 的其中一个，原始数据均会有较大损失。

现在考虑以下线性组合，变换坐标空间：
$\begin{cases} T_1 = X_1 \cos \theta + X_2 \sin \theta \\ T_2 = -X_1 \sin \theta + X_2 \cos \theta \end{cases}$

即

$\begin{bmatrix} T_1 & T_2 \end{bmatrix}=\begin{bmatrix} X_1 & X_2 \end{bmatrix} \begin{bmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{bmatrix} = \begin{bmatrix} X_1 & X_2 \end{bmatrix} \boldsymbol W \tag{1}$

式中 $\boldsymbol W$ 为旋转变换矩阵，有如下性质：

$\boldsymbol W$ 的第 $i$ 列组成的列向量（也就是后面将要提到的特征向量），代表的就是新坐标空间的基底 $T_i$ 在原坐标空间中的坐标，且其为单位向量；
$\boldsymbol W$ 为正交阵，即满足： $\boldsymbol W^{\rm T} \boldsymbol W=\boldsymbol I$ 。

经过旋转， $N$ 个数据点在 $T_1$ 轴上的离散程度最大，因而变量 $T_1$ 代表了原始数据的绝大部分信息，这样，即使不考虑变量 $T_2$ 也不会损失太多数据信息。这个 $T_1$ 即为第一主成分（Principal Component 1，PC1），如图中箭头所示。若将所有数据点投影到 $T_1$ 轴上（图中橙色点），就得到了降维后的数据。若有多个主成分，则：

这些主成分之间相互独立，即没有重叠的信息，亦即这些特征向量之间正交， ${\rm cov} \left( T_i, T_j \right) = 0,\quad i \ne j$ ；
主成分的方差依次递减， ${\rm var}\left( T_1 \right) \ge {\rm var}\left( T_2 \right) \ge \cdots$

PCA的几何意义

也就是说，PCA并不会对原有数据做任何的改变，而只是将“观看”原有数据的视角转换了，即，在原有数据空间中的数据的相对位置，与在主成分空间（Principal Component Space）中的相对位置是完全相同的，相当于只是更换了原有数据的基底。

原理与步骤简述

算法一：特征分解（Eigen Decomposition）

假设有一 $n\times m$ 维的数据矩阵 $\boldsymbol A = \begin{bmatrix} \vec a_1^{\rm T} \\ \vec a_2^{\rm T} \\ \vdots \\ \vec a_n^{\rm T} \end{bmatrix}$ ，其中 $n$ 为样本量， $m$ 为观测变量的数量。PCA的步骤如下：

先对 $\boldsymbol A$ 进行中心化（整体平移数据，使数据中心在 $(0, 0)$ ）：
- 对 $\boldsymbol A$ 求列上的平均值： $\overline {\vec a^{\rm T}} = \dfrac 1 n \sum _{i=1}^n \vec a_i ^{\rm T}$ （结果为一行向量）；
- 记 $\boldsymbol {\bar A} = \begin{bmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{bmatrix}\overline {\vec a^{\rm T}} = \begin{bmatrix} \overline {\vec a^{\rm T}} \\ \overline {\vec a^{\rm T}} \\ \vdots \\ \overline {\vec a^{\rm T}} \end{bmatrix}$ ；
- 中心化后的数据矩阵 $\boldsymbol X = \boldsymbol A - \boldsymbol {\bar A}$ （ $n\times m$ 维）。
计算 $\boldsymbol X$ 的协方差矩阵 $\boldsymbol C$ ：
$\boldsymbol C = \boldsymbol X^{\rm T}\boldsymbol X \tag{2}$
对 $\boldsymbol X$ 做特征分解，即求解特征方程
$\left| \boldsymbol C - \lambda \boldsymbol I\right|=0 \tag{3}$
可得到 $m$ 个特征值（Eigenvalues） $\lambda_i$ 。再解方程
$\left( \boldsymbol C - \lambda _i \boldsymbol I\right)\vec w_i =0 \tag{4}$
其中 $\vec w_i= \begin{bmatrix} w_{1i} \\ w_{2i} \\ \vdots \\ w_{mi}\end{bmatrix},\quad i=1,2,\cdots ,m$ ，得到 $m$ 个特征向量（Eigenvectors） $\vec w_i$ ，将它们组成矩阵 $\boldsymbol W$ 。可以验证， $\sum_{j=1}^m w_{ji}=1$ 。
将特征值降序排列，其对应的特征向量也排列到对应位置（调换 $\boldsymbol W$ 的列）。我们这样做的原因是， ${\rm var} \left( T_i\right)=\lambda_i$ 。

进行特征还原：
$\boldsymbol T = \boldsymbol X \boldsymbol W \tag{5}$
其中：
- $\boldsymbol T$ ， $n\times m$ 维，称为主成分得分（principal component scores），即为新坐标空间中的数据点
- $\boldsymbol W$ ， $m\times m$ 维，为特征向量组成的矩阵（称为loadings）
我们可以只取 $\boldsymbol W$ 的前 $r$ 列，即将 $m\times m$ 维矩阵缩减为 $m\times r$ 维矩阵，记作 $\boldsymbol W_r$ ，则有：
$\boldsymbol T_r = \boldsymbol X \boldsymbol W_r \tag{6}$
$\boldsymbol T_r$ 同样为 $\boldsymbol T$ 从 $n\times m$ 维缩减为 $n\times r$ 维的结果，相当于将原有的 $m$ 个观测变量缩减为最主要的 $r$ 个，即达到了我们的目的——降维。

算法二：奇异值分解（Singular Value Decomposition，SVD）

对矩阵 $\boldsymbol X$ 进行奇异值分解：
$\boldsymbol X = \boldsymbol U \boldsymbol \Sigma \boldsymbol V^* = \boldsymbol U \boldsymbol \Sigma \boldsymbol V^{\rm T}$
其中：

$\boldsymbol U$ （ $n\times n$ 维）， $\boldsymbol V$ （ $m\times m$ 维）分别称为左奇异向量和右奇异向量；
$\boldsymbol V^*$ 表示矩阵 $\boldsymbol V$ 的共轭转置矩阵，因为 $\boldsymbol X$ 为实数矩阵，所以可写为 $\boldsymbol V^*=\boldsymbol V^{\rm T}$ ；
$\boldsymbol \Sigma$ 为一矩形对角矩阵（ $n\times m$ 维），其对角线元素称为奇异值（singular value）。

在PCA的问题中恒有： $\boldsymbol W = \boldsymbol V$ 。与 $\boldsymbol W$ 相似， $\boldsymbol V$ 具有以下性质：

$\boldsymbol \Sigma$ 的对角线元素也满足 $\sigma_1> \sigma_2 > \cdots$ ，即，也是降序排列的；
$\boldsymbol U$ 和 $\boldsymbol V$ 的第 $i$ 列，对应于 $\boldsymbol \Sigma$ 的第 $i$ 个元素（第 $i$ 大元素） $\sigma_i$ ；
$\boldsymbol U$ 和 $\boldsymbol V$ 满足： $\boldsymbol U^* \boldsymbol U = \boldsymbol I$ ， $\boldsymbol V^* \boldsymbol V = \boldsymbol I$ 。

故，公式 $(5)$ 可写为：

$\begin{aligned} \boldsymbol T & = \boldsymbol X \boldsymbol W\\ & = \boldsymbol X \boldsymbol V\\ & = \boldsymbol U \boldsymbol \Sigma \boldsymbol V^*\boldsymbol V \\ & = \boldsymbol U \boldsymbol \Sigma \\ \end{aligned}$

即：

$\boldsymbol T = \boldsymbol U \boldsymbol \Sigma \tag{7}$

我们同样可以对 $\boldsymbol \Sigma$ 只取第一个 $\times r$ 的块，记作 $\boldsymbol \Sigma _ r$ ，相应地 $\boldsymbol U$ 也只取前 $r$ 列，记作 $\boldsymbol U_r$ ，则有

$\boldsymbol T_r = \boldsymbol U_r \boldsymbol \Sigma _r \tag{8}$

$r$ 的选取标准

计算方差的累积贡献率：
$f(k)=\dfrac{\sum _{i=1}^i \lambda_k}{\sum_{i=1}^m \lambda_i},\quad k = 1,2,\cdots \tag{9}$
作出其图像。因为 $\lambda_1> \lambda_2 > \cdots$ ，故 $f (k)$ 为一单调递增的函数，且其递增速度随着 $k$ 增加逐渐降低。

一般地，我们可以取使得 $\ge$ 某一阈值（如 $95\%$ ）的最小的 $r$ ，这样最多只会损失掉5%的方差。

对于SVD法，将公式 $(9)$ 中的 $\lambda$ 换为 $\sigma$ 即可。

两种算法的比较

在采用特征分解法时，我们无法避免计算 $\boldsymbol X^{\rm T}\boldsymbol X$ ，而在观测变量数 $m$ 非常大时，这一算法的劣势将被无限放大（协方差矩阵为 $m\times m$ 维）。

而采用SVD算法，则只需要计算 $\boldsymbol T_r = \boldsymbol U_r \boldsymbol \Sigma _r$ ，而 $\boldsymbol \Sigma _r$ 为对角阵，显然这一算法的计算量要小很多（这一点类似于DFT与FFT之间的比较）。默认情况下，MATLAB中的pca函数也会使用SVD算法。

MATLAB的实现方法

我们先载入MATLAB自带的数据集fisheriris（该数据集统计了三种鸢尾花的花萼长、花萼宽、花瓣长、花瓣宽），然后进行中心化处理，并计算协方差矩阵：

load fisheriris;
X = meas;     % n = 150, m = 4

% 中心化
meanX = ones(size(X,1), 1) * mean(X);
centredX = X - meanX;

C = cov(centredX);	% 直接调用cov直接计算协方差矩阵即可

特征分解法：利用`eig`函数

[W, Lambda] = eig(C);   % W是特征向量组成的矩阵（4×4），Lambda是特征值组成的对角矩阵
ev = (diag(Lambda))';		% 提取特征值
ev = ev(:, end:-1:1);		% eig计算出的特征值是升序的，这里手动倒序（W同理）
W = W(:, end:-1:1);
sum(W.*W, 1)    % 可以验证每个特征向量各元素的平方和均为1

Wr = W(:, 1:2);    % 提取前两个主成分的特征向量
Tr = centredX * Wr;  %  新坐标空间的数据点

% 作图
figure;
    stairs(cumsum(ev)/sum(ev), 'LineWidth',1.5);
    axis([1 4 0 1]);
    xlabel('$ k $', 'Interpreter', 'latex');
    ylabel('$ f(k)=\frac{\sum _{i=1}^i \lambda_k}{\sum_{i=1}^m \lambda_i} $',...
        'Interpreter', 'latex');
    hold on;
    plot([1 4], [0.95 0.95], '--');    % 从图中可以看出，取r = 2即可

figure;
    scatter(Tr(:,1), Tr(:,2), 130, categorical(species), '.');
    colormap(winter);
    xlabel('Principal Component 1');
    ylabel('Principal Component 2');

在这里插入图片描述

SVD法：利用`svd`函数

[U, Sigma, V] = svd(X);    % 可以检验，W和V完全相同（向量的正负号不影响）
Vr = V(:, 1:2);    % 提取前两个主成分的特征向量
Tr = X * Vr;  %  新坐标空间的数据点
% 画图部分同上，略

利用`pca`函数

pca的常用调用格式如下：

[loadings, scores] = pca(X, 'NumComponents', r);

其中：

loadings为 $\boldsymbol W_r$ 矩阵（ $m\times r$ 维），即主成分系数；
scores为 $\boldsymbol T_r$ 矩阵（ $n\times r$ 维）；
eigenvalues为所有特征值组成的列向量。

且默认情况下，pca会自动将数据X中心化。

在本例中，我们可以略去中心化的步骤，直接调用该函数：

[Wr, Tr, ev] = pca(X, 'NumComponents',2);
% 画图部分略

应用

聚类分析

如上面鸢尾花的例子中，降维后的数据仍可以清晰地分为三类。这样，当我们拿到一种鸢尾花，计算相应的 $T_1$ 和 $T_2$ ，将结果画在散点图中，我们就可以判断出其属于哪一种鸢尾花。

例如，我们在电商平台浏览并购买商品时，平台就会收集你的年龄、性别、购买商品平均价格、购买频率、最初浏览商品直到最终购买之间的时间间隔等等大量、多维度的信息，然后进行降维，将你归于“大学生”“白领”“一家三口”等类别，然后定向为你推送促销商品的通知。

图像压缩

假设有一张 $\times m$ 的图片 $\boldsymbol X$ ，根据 $(6)$ 式，我们可以利用矩阵 $\boldsymbol W_r$ 将其降至 $n\times r$ 维。如果我们只传输 $\boldsymbol T_r$ 和 $\boldsymbol W_r$ ，就可以反推还原出 $\boldsymbol X$ ，而压缩比可达 $\dfrac {nm}{r(n+m)} \le \dfrac {\sqrt{nm}} {2r}$

人脸检测与匹配

假设有 $n$ 个人脸训练样本，每个样本共 $m$ 个像素，每个样本由其像素灰度值展开组成一个行向量，按列组成矩阵 $\boldsymbol X$ 。

同样先求其平均向量（称为“平均脸”），中心化后求协方差矩阵，并进行特征分解。任何一幅人脸图像都可以变换到主成分空间，得到“特征脸”（Eigenfaces）。

这样，若将待识别的人脸做同样的变换，遍历已有的特征脸中，寻找最为接近的特征脸，即完成了匹配。

S.Z.Zheng

关注

32
点赞
踩
233

收藏

觉得还不错? 一键收藏
8
评论
主成分分析（PCA）及其MATLAB的实现方法

说明：下文中，粗斜体字母均表示矩阵（如A\boldsymbol AA）；为不引起歧义，列向量也均加箭头表示（如a⃗\vec aa）概述PCA的目的假设现在有这样一个情景：现在要统计并可视化分析男大学生体测成绩，如果只参考立定跳远和1000m成绩两项指标，我们可以以立定跳远成绩作为xxx轴，1000m成绩作为yyy轴做出散点图，每个点代表一个学生；若统计三项指标，我们也可以在三维空间中做出...
复制链接

扫一扫