线性代数及应用【下】：矩阵分解、主成分分析（PCA）

jjt12jt

已于 2022-05-27 01:55:55 修改

阅读量242

点赞数 1

文章标签：线性代数矩阵机器学习

于 2022-05-27 01:51:15 首次发布

本文链接：https://blog.csdn.net/jjt12jt/article/details/124996175

版权

线性代数及应用【下】

学习笔记打卡：

线性代数及应用【上】：
第一章矩阵变换
1.1 基变换与坐标变换
1.2 矩阵乘法
1.3 线性变换的矩阵
第二章矩阵的四大基本空间
应用一最小二乘法的线性拟合
3.0 向量范数
3.1 投影矩阵与投影向量
3.2 多元线性回归

线性代数及应用【下】：
第四章矩阵分解
4.0 特征值分解（EVD）
4.1 奇异值分解（SVD）
应用二主成分分析（PCA）
参考链接

第四章矩阵分解

矩阵分解是指根据一定的原理用某种算法将一个矩阵分解成若干个矩阵的乘积，主要包括：可逆方阵的三角分解（LU），满秩方阵的正交三角分解（QR），不可对角化矩阵的Jordan分解，对称正定矩阵的Cholesky分解，任意方阵的Schur分解、Hessenberg分解、特征值分解（EVD），和任意矩阵的几何均值分解（GMD）奇异值分解 (Singular Value Decompostion) 等，其中SVD是六种矩阵分解中综合性最强，应用最广的分解.

4.0 特征值分解（EVD）

空间中同一个线性变换，在不同的基底下，用于描述的矩阵是相似的，而过渡矩阵 $\boldsymbol{P}$ 联系了这些相似矩阵. 而选择一个好的基底，能够使变换对应的矩阵更加简洁，使描述和计算线性变换更加简单，所以希望线性变换矩阵是一个对角阵（因为他有很多优良的性质）.

在 $\mathbb{R}^{n}$ 中，设 $\boldsymbol{A}\in\mathbb{R}^{n\times n}$ ，需要找到一个可逆矩阵 $\boldsymbol{P}$ ，使得 $\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}=\boldsymbol{\Lambda}$ ，其中 $\boldsymbol{\Lambda}=\text{diag}\{\lambda_1,\,\lambda_2,\cdots\lambda_n\}$ ， $\boldsymbol{P}=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix}$ ，实现 $\boldsymbol{A}$ 的对角化.
左乘 $\boldsymbol{P}$ ，由于
$\begin{aligned} \boldsymbol{A}\boldsymbol{P}&=\boldsymbol{P}\boldsymbol{\Lambda} \\ \Rightarrow\boldsymbol{A}\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix}&=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix} \begin{pmatrix} {\lambda_{1}}\\ &{\lambda_{2}}\\ &&{\ddots}\\ &&&{\lambda_{n}}\\ \end{pmatrix} \\\Rightarrow\begin{pmatrix}{\boldsymbol{A}\boldsymbol{p}_1}&{\boldsymbol{A}\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{A}\boldsymbol{p}_n}\end{pmatrix}&=\begin{pmatrix}{{\lambda_{1}}\boldsymbol{p}_1}&{\lambda_{2}}{\boldsymbol{p}_2}&{\cdots}&{\lambda_{n}}{\boldsymbol{p}_n}\end{pmatrix} \end{aligned}$ 问题转化为找到所有满足 $\boldsymbol{A}\boldsymbol{p}_i={{\lambda_{i}}\boldsymbol{p}_i}$ 的 $\boldsymbol{p}_i$ ，且不同 $\boldsymbol{p}_i$ 之间线性无关. 方程整理，得 $(\boldsymbol{A}-{{\lambda}_i\boldsymbol{E})\boldsymbol{p}_i}=0$ $\,\Leftrightarrow\,$ $N(\boldsymbol{A}-{{\lambda}_i\boldsymbol{E}})=\text{Span}\{{\boldsymbol{p}_i}\}$ $\,\Leftrightarrow\,$ $\text{det}(\boldsymbol{A}-{{\lambda}_i\boldsymbol{E}}) =0$ ，进而求出 $\boldsymbol{P}$ 和 $\boldsymbol{\Lambda}$ .
实对称矩阵性质优，且与二次型一一对应：

	实对称矩阵性质
1	实对称矩阵的不同特征值对应的特征向量是正交的
2	实对称矩阵的特征值都是实数
3	实对称矩阵必可相似对角化，且一定可正交相似对角化
4	若实对称矩阵具有 $k$ 重特征值，则有 $k$ 个线性无关的特征向量
5	实矩阵与其自身转置相乘能够得到实对称矩阵，且秩不变、半正定

在 $\mathbb{R}^{n}$ 中，设 $\boldsymbol{A}\in\mathbb{R}^{n\times n}$ 是一个实对称矩阵，考虑实对称矩阵的相似对角化
$\begin{aligned}\boldsymbol{Q}^{-1}\boldsymbol{A}\boldsymbol{Q}=\boldsymbol{\Lambda} \\(\boldsymbol{Q}^{-1}\boldsymbol{A}\boldsymbol{Q})^{\top}=\boldsymbol{\Lambda} \\\boldsymbol{Q}^{\top}\boldsymbol{A}(\boldsymbol{Q}^{-1})^{\top}=\boldsymbol{\Lambda} \end{aligned}$ 得到 $\begin{cases} \boldsymbol{Q}^{-1}=\boldsymbol{Q}^{\top} \\\\\boldsymbol{Q}=(\boldsymbol{Q}^{-1})^{\top} \end{cases}\,\,\,$ . 所以 $\boldsymbol{Q}$ 是一个正交矩阵，因此 $\boldsymbol{A}$ 可以进行正交分解 $\boldsymbol{Q}^{\top}\boldsymbol{A}\boldsymbol{Q}=\boldsymbol{\Lambda}$ 因为 $\text{det}(\boldsymbol{Q})=1$ ，所以正交分解保证二次型的形状（向量模长、向量夹角）不变.

	正交矩阵性质
1	$\boldsymbol{Q}^{-1}=\boldsymbol{Q}^\top$ ，且都是正交矩阵
2	$\text{det}(\boldsymbol{Q})=\pm 1$
3	同型正交矩阵的乘积是正交的
4	正交矩阵 $\boldsymbol{Q}\in\mathbb{R}^{n\times n}$ 全部行（列）向量是 $\mathbb{R}^{n}$ 的一组标准正交基
5	正交矩阵是欧氏空间中标准正交基到标准正交基的过渡矩阵

4.1 奇异值分解（SVD）

EVD要求矩阵必须为方阵，且能够对角化，存在局限性. 设 $\boldsymbol{A}\in\mathbb{R}^{m\times n}$ ，考虑对于一般矩阵的分解. （未完）

应用二主成分分析（PCA）

数据特征如果是高维就要特征选择或者降维，特征选择是从原有特征中选择相关性高的特征，特征降维是从原有特征中整合出新的有代表性的特征，一个方法是主成分分析（PCA）.

全部样本数据（data）类似于一张全班同学的成绩单. 记自然基构成的矩阵为 $\boldsymbol{E}\in \mathbb{R}^{m\times m}$ ，全部样本在自然基底下的坐标为 $\boldsymbol{X}$ ，所以全部样本数据为 $\boldsymbol{X}=\begin{pmatrix}\textcolor{red}{\boldsymbol{x}_1^\top}\\\textcolor{red}{\boldsymbol{x}_2^\top}\\{\vdots}\\\textcolor{red}{\boldsymbol{x}_k^\top}\\{\vdots}\\\textcolor{red}{\boldsymbol{x}_n^\top}\end{pmatrix}=\begin{pmatrix} {x_{\textcolor{red}{1},\textcolor{blue}{1}}}&{x_{\textcolor{red}{1},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{1},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{1},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{1},\textcolor{blue}{m}}}\\ {x_{\textcolor{red}{2},\textcolor{blue}{1}}}&{x_{\textcolor{red}{2},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{2},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{2},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{2},\textcolor{blue}{m}}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{\textcolor{red}{k},\textcolor{blue}{1}}}&{x_{\textcolor{red}{k},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{k},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{k},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{k},\textcolor{blue}{m}}}\\{\vdots}&{\vdots}&{\ddots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\{x_{\textcolor{red}{n},\textcolor{blue}{1}}}&{x_{\textcolor{red}{n},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{n},\textcolor{blue}{1}}}&{\cdots}&{x_{\textcolor{red}{n},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{n},\textcolor{blue}{m}}}\\ \end{pmatrix}=\begin{pmatrix}\textcolor{blue}{X_1}&\textcolor{blue}{X_2}&{\cdots}&\textcolor{blue}{X_i}&{\cdots}&\textcolor{blue}{X_m}\end{pmatrix} \in\mathbb{R}^{n\times m}$ .

$\textcolor{blue}m$ 为特征维度，每列代表不同特征（如语文成绩、数学成绩等），第 $\textcolor{blue}i$ 个特征数据表示为 $\textcolor{blue}{X_i}$ ；
$\textcolor{red}n$ 为样本数量，每行是一个样本（如小明、小红等），第 $\textcolor{red}k$ 个样本表示为 $\textcolor{red}{\boldsymbol{x}_k^\top}$ （转置为行向量表示）.
每个特征的样本（specimen）的均值 $\bar{X}_i$ 和方差 $s^2_i$ 分别是该特征的总体（population）期望 $\mu_i$ 和方差 $\sigma^2_i$ 的无偏估计（Unbiased estimate）. 可以使用样本方差表示同一特征中不同数据的分散程度，而协方差则反应了两组随机变量之间的相关程度，定义为
$\begin{aligned} \text{Cov}[X_1,\,X_2]=E[X_1-\mu_1]E[X_2-\mu_2] \end{aligned}$ 样本协方差也是总体协方差的无偏估计，定义为
$\begin{aligned} \text{cov}[X_1,\,X_2]=E[X_1-\bar{X}_1]E[X_2-\bar{X}_2] \end{aligned}$ 方差就是信息，方差越大，信息越多.

定义协方差矩阵：
$\begin{aligned} \boldsymbol{\Sigma} &={E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\top}\right] \\\\&={E}\left[\begin{pmatrix}{{X}_1}-{\mu}_1\\{{X}_2}-{\mu}_2\\{\vdots}\\{{X}_m}-{\mu}_m\end{pmatrix} \begin{pmatrix}{{X}_1}-{\mu}_1&{{X}_2}-{\mu}_2&{\cdots}&{{X}_m}-{\mu}_m\end{pmatrix}\right] \\\\ &=\begin{pmatrix}{E}\left(X_{1}-\mu_{1}\right)^2 & {E}\left[\left(X_{1}-\mu_{1}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & {E}\left[\left(X_{1}-\mu_{1}\right)\left(X_{m}-\mu_{m}\right)\right] \\ {E}\left[\left(X_{2}-\mu_{2}\right)\left(X_{1}-\mu_{1}\right)\right] & {E}\left(X_{2}-\mu_{2}\right)^2 & \cdots & {E}\left[\left(X_{2}-\mu_{2}\right)\left(X_{m}-\mu_{m}\right)\right] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\ {E}\left[\left(X_{m}-\mu_{m}\right)\left(X_{1}-\mu_{1}\right)\right] & {E}\left[\left(X_{m}-\mu_{m}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & {E}\left(X_{m}-\mu_{m}\right)^2\end{pmatrix} \\\\&=\begin{pmatrix}\sigma_1^2&\text{Cov}[X_1,\,X_2]& \cdots &\text{Cov}[X_1,\,X_m] \\\text{Cov}[X_2,\,X_1]&\sigma_2^2&\cdots &\text{Cov}[X_2,\,X_m] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\\text{Cov}[X_m,\,X_1]&\text{Cov}[X_m,\,X_2]&\cdots&\sigma_m^2 \end{pmatrix} \end{aligned}$ 由于样本均值和样本方差独立，所以改变样本均值不会改变样本的离散程度. 所以为方便计算，经平移变换，将每个特征的样本均值 $\bar{X}_i=0$ （或 $\mu _i=0$ ），再去进而得到样本的协方差矩阵： $\begin{aligned} \boldsymbol{\Sigma}_x &= \begin{pmatrix}s^2_1&\text{cov}[X_1,\,X_2]& \cdots &\text{cov}[X_1,\,X_m] \\\text{cov}[X_2,\,X_1]&s^2_2&\cdots &\text{cov}[X_2,\,X_m] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\\text{cov}[X_m,\,X_1]&\text{cov}[X_m,\,X_2]&\cdots&s^2_m \end{pmatrix} \\\\&=\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top \end{aligned}$ 不难发现它就是零均值化后的样本矩阵与其自身转置相乘后的结果，显然协方差矩阵是一个（半）正定、满秩的实对称矩阵. 应当考虑矩阵分解.

EVD分解方法： 希望进行特征降维，要确保各特征间的相关性为0，若不保证相关性为0，则去掉其中一个特征后，必然会更多地影响其他特征对样本的贡献. 记自然基构成的矩阵为 $\boldsymbol{E}\in \mathbb{R}^{m\times m}$ ，全部样本在基底 $\boldsymbol{A}$ 下的坐标为 $\boldsymbol{Y}$ . 问题转化为寻找一组新的标准正交基 $\boldsymbol{A}\in\mathbb{R}^{m\times m}$ ，在 $\text{Span}\{\boldsymbol{A}\}$ 上所有样本特征之间的协方差均为0： $\begin{aligned} \boldsymbol{\Sigma}_y &=\frac{1}{n-1}\boldsymbol{Y}\boldsymbol{Y}^\top \end{aligned}$ 记由基 $\boldsymbol{E}\to\boldsymbol{A}$ 的过渡矩阵 $\boldsymbol{Q}$ （是正交矩阵），基变换公式为 $\boldsymbol{A}=\boldsymbol{E}\boldsymbol{Q}=\boldsymbol{Q}$ ，对应 $\boldsymbol{X}\to\boldsymbol{Y}$ 的坐标变换公式为 $\boldsymbol{X}=\boldsymbol{Q}\boldsymbol{Y}=\boldsymbol{A}\boldsymbol{Y}$ . 则协方差矩阵进一步表示为
$\begin{aligned} \boldsymbol{\Sigma}_x &=\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top \\\\&=\frac{1}{n-1}\boldsymbol{A}\boldsymbol{Y}(\boldsymbol{A}\boldsymbol{Y})^\top \\\\&=\boldsymbol{A}(\frac{1}{n-1}\boldsymbol{Y}\boldsymbol{Y}^\top)\boldsymbol{A}^\top \\\\&=\boldsymbol{A}\boldsymbol{\Sigma}_y\boldsymbol{A}^\top \end{aligned}$ 等价于对协方差矩阵正交分解
$\begin{aligned} \boldsymbol{\Sigma}_x&=\boldsymbol{Q}\boldsymbol{\Lambda}\boldsymbol{Q}^\top \end{aligned}$ 因此求得 $\begin{cases} \boldsymbol{A}=\boldsymbol{Q} \\\\\boldsymbol{\Sigma}_y=\boldsymbol{\Lambda} \end{cases}\,\,\,$ .