Chapter 7 (Symmetric Matrices and Quadratic Forms): Principal Component Analysis (主成分分析, PCA)

连理o

已于 2024-07-29 18:25:28 修改

阅读量315

点赞数 1

分类专栏：线性代数文章标签：线性代数机器学习数据挖掘人工智能

于 2020-10-11 16:41:35 首次发布

本文链接：https://blog.csdn.net/weixin_42437114/article/details/109009322

版权

线性代数专栏收录该内容

50 篇文章 28 订阅

订阅专栏

Mean and Covariance

To prepare for principal component analysis, let $\begin{bmatrix} \boldsymbol X_1&...& \boldsymbol X_N\end{bmatrix}$ be a $p\times N$ matrix of observations (观测矩阵; 每个样本有 $p$ 个属性). The sample mean (样本均值), $\boldsymbol M$ , of the observation vectors is given by
For $k = 1, ..., N$ , let
The columns of the $p\times N$ matrix
have a zero sample mean, and $B$ is said to be in mean-deviation form (平均偏差形式).
The (sample) covariance matrix (样本协方差矩阵) is the $p\times p$ matrix $S$ defined by
The total variance (总方差) of the data is the sum of the variances on the diagonal of $S$ . Thus

PROOF

下面简单推导一下为什么样本协方差矩阵的系数为 $\frac{1}{n-1}$ (注意由于是采样，下面式子中的 $\bar X,\bar Y$ 其实是随机变量)：
$\begin{aligned} E\left[\sum_i(x_i-\bar X)(y_i-\bar Y)\right] &=E\left[\sum_ix_iy_i-n\bar X\bar Y\right] \\&=E\left[\sum_ix_iy_i\right]-nE\left[\bar X\bar Y\right] \\&=n\left(E\left[XY\right]-E\left[\bar X\bar Y\right]\right) \\&=n\left(cov(X,Y)+E[X]E[Y]-cov(\bar X,\bar Y)-E[\bar X]E[\bar Y]\right) \\&=n\left(cov(X,Y)-cov(\bar X,\bar Y)\right)\quad\quad\quad(1) \end{aligned}$ 由于假设采样样本之间独立同分布，因此 $cov(x_i,y_j)=0,\ i\neq j$ ，可得
$\begin{aligned} cov(\bar X,\bar Y)&=\frac{1}{n^2}cov\left(\sum_{i=1}^nx_i,\sum_{i=1}^ny_i\right) \\&=\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^ncov\left(x_i,y_j\right) \\&=\frac{1}{n^2}\sum_{i=1}^ncov\left(x_i,y_i\right) \\&=\frac{1}{n}cov\left(X,Y\right) \end{aligned}$ 将上式代入 (1) 得
$\begin{aligned} E\left[\sum_i(x_i-\bar X)(y_i-\bar Y)\right] &=(n-1)cov(X,Y) \end{aligned}$ 因此
$\begin{aligned} \frac{1}{n-1}E\left[\sum_i(x_i-\bar X)(y_i-\bar Y)\right] &=cov(X,Y) \end{aligned}$

Analysis of the multivariate data in $\boldsymbol X_1,..., \boldsymbol X_N$ is greatly simplified when most or all of the variables $x_1,..., x_p$ are uncorrelated, that is, when the covariance matrix of $\boldsymbol X_1,..., \boldsymbol X_N$ is diagonal or nearly diagonal. 因此，PCA 的思想就是用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分

PCA

PCA 的基本思想

主成分分析中，首先对给定数据进行规范化，使得数据每一变量的平均值为 0，方差为 1。之后对数据进行正交变换 (也就是对原有坐标系进行旋转变换，得到一个新的坐标系)，原来由线性相关变量表示的数据，通过正交变换变成由若干个线性无关的新变量表示的数据 (这些新变量即为新坐标系的正交基)。新变量是可能的正交变换中变量的方差的和 (信息保存) 最大的，方差表示在新变量上信息的大小。将新变量依次称为第一主成分、第二主成分等 (即新坐标系的第一坐标轴、第二坐标轴)
通过主成分分析，可以利用主成分近似地表示原始数据，这可理解为发现数据的 “基本结构”; 也可以把数据由少数主成分表示，这可理解为对数据降维

如上图所示，原有坐标系为 $x_1,x_2$ ，但这两个变量是线性相关的；在经过正交变换后找到了新坐标系 $y_1,y_2$ ，原有样本可以由新变量 $y_1,y_2$ 表示，在新坐标系中，数据中的变量 $y_1$ 和 $y_2$ 的是线性无关的。在新坐标系中通过选取方差最大的方向 (第一主成分) 作为新坐标系的第一个坐标轴 $y_1$ ，之后选择与 $y_1$ 正交且方差次之的方向 (第二主成分) 作为新坐标系的第二坐标轴。如果主成分分析只取第一主成分，即新坐标系的 $y_1$ 轴，那么等价于将数据投影在椭圆长轴上，将二维空间的数据压缩到一维空间中

对属性进行正交变换，使变换后的属性间互不相关

Assume that the matrix $\begin{bmatrix} \boldsymbol X_1&...& \boldsymbol X_N\end{bmatrix}$ is already in mean-deviation form. The goal of principal component analysis is to find an orthogonal $p\times p$ matrix $=\begin{bmatrix} \boldsymbol u_1&...& \boldsymbol u_p\end{bmatrix}$ that determines a change of variable, $\boldsymbol X= P\boldsymbol Y$ , or
with the property that the new variables $y_1,..., y_p$ are uncorrelated and are arranged in order of decreasing variance.
- $\boldsymbol Y_k$ is the coordinate vector of $\boldsymbol X_k$ with respect to the columns of $P$ , and $\boldsymbol Y_k= P^T \boldsymbol X_k$ for $k = 1, ..., N$ .
- Notice that $\boldsymbol Y_1,...,\boldsymbol Y_N$ are in mean-deviation form and the covariance matrix of $\boldsymbol Y_1,...,\boldsymbol Y_N$ is $P^TSP$ . So the desired orthogonal matrix $P$ is one that makes $P^TSP$ diagonal.
Let $D$ be a diagonal matrix with the eigenvalues $\lambda_1,...,\lambda_p$ of $S$ on the diagonal, arranged so that $\lambda_1\geq\lambda_2\geq...\geq\lambda_p\geq 0$ , and let $P$ be an orthogonal matrix whose columns are the corresponding unit eigenvectors $\boldsymbol u_1,...,\boldsymbol u_p$ . Then $S= PDP^T$ . (也就是对协方差矩阵 $S$ 进行正交对角化) 可以看出， $P$ 即为我们想要的正交矩阵，它可以使变换后的变量之间互不相关
- The unit eigenvectors $\boldsymbol u_1,...,\boldsymbol u_p$ of the covariance matrix $S$ are called the principal components (主成分) of the data (in the matrix of observations).
  - The first principal component (第一主成分) is the eigenvector corresponding to the largest eigenvalue of $S$ , the second principal component is the eigenvector corresponding to the second largest eigenvalue, and so on. (在新坐标系内，样本的协方差矩阵为对角矩阵 $D$ ，其中第一主成分对应的方差最大，为 $D$ 对角线上的第一个元素 $\lambda_1$ ；第二主成分对应的方差为 $\lambda_2$ ，仅次于第一主成分)
  - The first principal component $\boldsymbol u_1$ determines the new variable $y_1$ in the following way: Let $c_1,..., c_p$ be the entries in $\boldsymbol u_1$ . Since $\boldsymbol u_1^T$ is the first row of $P^T$ , the equation $\boldsymbol Y= P^T \boldsymbol X$ shows that
    Thus $y_1$ is a linear combination of the original variables $x_1,..., x_p$ , using the entries in the eigenvector $\boldsymbol u_1$ as weights (新属性变成了主成分的一个线性组合). In a similar fashion, $\boldsymbol u_2$ determines the variable $y_2$ , and so on.

从互不相关 + 最大化方差的角度看 PCA

最大可分性：在构造新坐标系后降维得到一个超平面时，我们希望样本点在这个超平面上的投影能尽可能分开. 即投影后样本点的方差最大化，这样就可以最大化地保留原有数据的信息；因此我们可以如下构造主成分：给定一个线性变换 $y_i=\boldsymbol u_i^T\boldsymbol x$ ( $i = 1, 2, ..., p$ )，它们满足下列条件:
- (1) 系数向量 $\boldsymbol u_i$ 是单位向量，即 $\boldsymbol u_i^T\boldsymbol u_i=1$
- (2) 变量 $y_i$ 与 $y_j$ 互不相关，即 $cov(y_i,y_j) =0$ ( $i\neq j$ )
- (3) 变量 $y_1$ 是 $\boldsymbol x$ 的所有线性变换中方差最大的； $y_2$ 是与 $y_1$ 不相关的 $\boldsymbol x$ 的所有线性变换中方差最大的; 一般地， $y_i$ 是与 $y_1,...,y_{i-1}$ ( $i = 1, 2, ..., p$ ) 都不相关的 $\boldsymbol x$ 的所有线性变换中方差最大的；这时分别称 $y_1,...,y_p$ 为 $\boldsymbol x$ 的第一主成分、第二主成分、…、第 $p$ 主成分

从上面的条件中也可以推出 PCA

证明

The variance of the values of $y$ as $\boldsymbol x$ varies over the original data $\boldsymbol x_1,...,\boldsymbol x_N$ turns out to be $\boldsymbol u^T S\boldsymbol u$
- Proof: $\frac{1}{N-1}\sum_{i=1}^Ny_i^2=\frac{1}{N-1}\sum_{i=1}^Ny_i^Ty_i=\frac{1}{N-1}\sum_{i=1}^N\boldsymbol x_i^T\boldsymbol u\boldsymbol u^T\boldsymbol x_i=\frac{1}{N-1}\sum_{i=1}^N\boldsymbol u^T\boldsymbol x_i\boldsymbol x_i^T\boldsymbol u=\frac{1}{N-1}\boldsymbol u^T(\sum_{i=1}^N\boldsymbol x_i\boldsymbol x_i^T)\boldsymbol u=\frac{1}{N-1}\boldsymbol u^TBB^T\boldsymbol u=\boldsymbol u^T S\boldsymbol u$
- 因此，我们要解的是一个条件最优化问题：
  $\begin{aligned} &\max_{\boldsymbol u_i}\boldsymbol u_i^TS\boldsymbol u_i \\s.t.\ &\boldsymbol u_i^T\boldsymbol u_i=1\\ &\boldsymbol u_i^T\boldsymbol u_j=0\quad\quad\quad j=0,1,...,i-1 \\&cov(y_i,y_j)=0\quad j=0,1,...,i-1 \end{aligned}$
我们暂时先忽略约束条件 $cov(y_i,y_j)=0$ ，求解以下条件约束问题：
$\begin{aligned} &\max_{\boldsymbol u_i}\boldsymbol u_i^TS\boldsymbol u_i \\s.t.\ &\boldsymbol u_i^T\boldsymbol u_i=1\\ &\boldsymbol u_i^T\boldsymbol u_j=0\quad\quad\quad j=0,1,...,i-1 \end{aligned}$
- Accoring to Constrained Optimization, the maximum value of the quadratic form $\boldsymbol u^T S\boldsymbol u$ , over all unit vectors $\boldsymbol u$ , is the largest eigenvalue $\lambda_1$ of $S$ , and this variance is attained when $\boldsymbol u$ is the corresponding eigenvector. In the same way, $y_2$ has maximum possible variance among all variables $y=\boldsymbol u^T\boldsymbol X$ that are uncorrelated with $\boldsymbol y_1$ . Likewise, $\boldsymbol y_3$ has maximum possible variance among all variables uncorrelated with both $\boldsymbol y_1$ and $\boldsymbol y_2$ , and so on.
可证得 $cov(y_i,y_j)=\boldsymbol u_i^TS\boldsymbol u_j$ ，因此我们发现，当 $\boldsymbol u$ 为 $S$ 的特征向量时， $cov(y_i,y_j)=\lambda_j\boldsymbol u_i^T\boldsymbol u_j=0$ ，即正好满足约束 $cov(y_i,y_j)=0$ ，因此得证

因子负荷量 (factor loading)

因子负荷量

第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关系数 $\rho(y_k,x_i)$ 称为因子负荷量，它表示第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关关系。计算公式是
$\rho\left(y_{k}, x_{i}\right)=\frac{\sqrt{\lambda_{k}} u_{i k}}{\sqrt{\sigma_{i i}}}, \quad k, i=1,2, \cdots, m$ 其中 $\lambda_k$ 为 $X$ 协方差矩阵 $S$ 的第 $k$ 大特征值， $u_{ik}$ 为 $\lambda_k$ 对应特征向量 $\boldsymbol u_k$ 的第 $i$ 个分量， $\sigma_{ii}$ 为 $x_i$ 的方差
- 证明:
  $\begin{aligned}\rho\left(y_{k}, x_{i}\right)&=\frac{{cov}\left(y_{k}, x_{i}\right)}{\sqrt{{var}\left(y_{k}\right) {var}\left(x_{i}\right)}} \\&=\frac{{cov}\left( \boldsymbol u_{k}^{\mathrm{T}} \boldsymbol{x}, \boldsymbol e_{i}^{\mathrm{T}} \boldsymbol{x}\right)}{\sqrt{\lambda_{k}} \sqrt{\sigma_{i i}}} \\&=\frac{\boldsymbol u_{k}^{\mathrm{T}}S\boldsymbol e_{i}}{\sqrt{\lambda_{k}} \sqrt{\sigma_{i i}}} \\&=\frac{(S\boldsymbol u_{k})^T\boldsymbol e_{i}}{\sqrt{\lambda_{k}} \sqrt{\sigma_{i i}}} \\&=\frac{\lambda_k\boldsymbol u_{k}^T\boldsymbol e_{i}}{\sqrt{\lambda_{k}} \sqrt{\sigma_{i i}}}\\&=\frac{\sqrt{\lambda_{k}}u_{ik}}{ \sqrt{\sigma_{i i}}} \end{aligned}$

因子负荷量的一些性质

(1)
$\sum_{i=1}^p\sigma_{i i}\rho^2\left(y_{k}, x_{i}\right)=\lambda_{k}$ 其中 $p$ 为样本维数
- 证明：由因子负荷量的计算式易证，
  $\sigma_{i i}\rho^2\left(y_{k}, x_{i}\right)=\lambda_{k} u_{i k}^2$
(2)
$\sum_{k=1}^p\rho^2\left(y_{k}, x_{i}\right)=1$
- 证明：由因子负荷量的计算式可知，
  $\rho^2\left(y_{k}, x_{i}\right)=\frac{\lambda_{k} u_{i k}^2}{\sigma_{i i}}$ 因此
  $\begin{aligned} \sum_{k=1}^p\rho^2\left(y_{k}, x_{i}\right)&=\frac{\sum_{k=1}^p\lambda_{k} u_{i k}^2}{\sigma_{i i}} \\&=\frac{1}{\sigma_{ii}}\sum_{k=1}^p\lambda_{k} u_{i k}^Tu_{ik} \\&=\frac{1}{\sigma_{ii}}\sum_{k=1}^p\lambda_{k} (\boldsymbol u_k^T\boldsymbol e_i)^T(\boldsymbol u_k^T\boldsymbol e_i) \\&=\frac{1}{\sigma_{ii}}\boldsymbol e_i^T\left(\sum_{k=1}^p\lambda_{k} \boldsymbol u_k\boldsymbol u_k^T\right)\boldsymbol e_i \\&=\frac{1}{\sigma_{ii}}\boldsymbol e_i^TS\boldsymbol e_i \\&=1 \end{aligned}$

多变量数据的降维

It can be shown that an orthogonal change of variables, $X = P Y$ , does not change the total variance of the data.
- It can be shown that if $A$ and $B$ are $n\times n$ matrices, then $t r (A B) = t r (B A)$ (科学归纳法可证). Thus $tr(P^TSP)=tr(S)$ .
This means that if $S = PDP^T$ , then
The variance of $y_j$ is $\lambda_j$ , which measures the fraction of the total variance that is “explained” or “captured” by $y_j$ .
- 例如，下图中几乎所有点都分布在一个二维平面上，这也就意味着原本的三维坐标可以简化为二维坐标，进而达到降维的目的 (方差最小的那个属性可以去掉)

PCA 算法

在这里插入图片描述

PCA 仅需保留 $W$ 与样本的均值向量 (保存均值向量是为了对新样本同样进行中心化) 即可将新样本投影至低维空间中

选取 $d^{'}$

(1) 降维后低维空间的维数 $d^{'}$ 通常是由用户事先指定，或通过在 $d^{'}$ 值不同的低维空间中对 $K$ 近邻分类器（或其他开销较小的学习器）进行交叉验证来选取较好的 $d^{'}$ 值
(2) 对 PCA, 还可从重构的角度设置一个重构阈值，例如 $95\%$ , 然后选取使下式成立的最小 $d^{'}$ 值 (将方差看作信息的保留程度；特征值之和即为总方差；下式保证降维后的数据总方差占原数据总方差的 $t$ 以上)：
- 显然，低维空间与原始高维空间必有不同，因为对应于最小的 $d - d^{'}$ 个特征值的特征向量被舍弃了
- 但舍弃这部分信息往往是必要的：一方面，舍弃这部分信息之后能使样本的采样密度增大，这正是降维的重要动机；另一方面，当数据受到噪声影响时，最小的特征值所对应的特征向量往往与噪声有关，将它们舍弃能在一定程度上起到去噪的效果
(3) 重构阈值反映了主成分保留信息的比例，但它不能反映对某个原有变量 $x_i$ 保留信息的比例，这时通常利用 $k$ 个主成分的 $y_1,...,y_k$ 对原有变量 $x_i$ 的贡献率

数据矩阵的奇异值分解算法

实践中常通过对 $X$ 进行奇异值分解来代替协方差矩阵的特征值分解

在这里插入图片描述

Example: Multichannel Image Processing

卫星拍摄了同一地区的 3 个不同波段的照片，这 3 张照片中含有许多冗余信息，但也各自包含一些独特的信息。我们的目标就是从这些照片中和抽取出有用信息，最终合成一张图片

首先，我们将每个像素点都看作一个样本点，因此 $2000\times 2000$ 的图片就可以看作 $2000\times 2000$ 个样本，同时每个样本有 3 个属性 (3 张照片中对应像素点的取值)。最终观测矩阵大小为 $3\times4000,000$
假设样本协方差矩阵为:
- The eigenvalues of $S$ and the associated principal components (the unit eigenvectors) are
  Using two decimal places for simplicity, the variable for the first principal component is
  This equation was used to create photograph $(d)$ . The variables $x_1, x_2$ , and $x_3$ are the signal intensities in the three spectral bands. At each pixel in photograph $(d)$ , the gray scale value is computed from $y_1$ , a weighted linear combination of $x_1, x_2$ and $x_3$ . In this sense, photograph $(d)$ “displays” the first principal component of the data.
The covariance matrix for the transformed data, using variables $y_1, y_2$ , and $y_3$ , is
The percentages of the total variance explained by the principal components are
The calculations in show that the data have practically no variance in the third (new) coordinate. (新的第 3 坐标上，所有样本属性取值都几乎相同 (方差很小)，因此该坐标上保留的信息很少，可以删除) In fact, $y_2$ also has relatively small variance, which means that the points lie approximately along a line, and the data are essentially one-dimensional.