线性代数及应用【下】:矩阵分解、主成分分析(PCA)

线性代数及应用【下】

学习笔记打卡:

线性代数及应用【上】:
第一章 矩阵变换
 1.1 基变换与坐标变换
 1.2 矩阵乘法
 1.3 线性变换的矩阵
第二章 矩阵的四大基本空间
应用一 最小二乘法的线性拟合
 3.0 向量范数
 3.1 投影矩阵与投影向量
 3.2 多元线性回归

线性代数及应用【下】:
第四章 矩阵分解
 4.0 特征值分解(EVD)
 4.1 奇异值分解(SVD)
应用二 主成分分析(PCA)
参考链接



第四章矩阵分解

  矩阵分解是指根据一定的原理用某种算法将一个矩阵分解成若干个矩阵的乘积,主要包括:可逆方阵的三角分解(LU),满秩方阵的正交三角分解(QR),不可对角化矩阵的Jordan分解,对称正定矩阵的Cholesky分解,任意方阵的Schur分解、Hessenberg分解、特征值分解(EVD),和任意矩阵的几何均值分解(GMD)奇异值分解 (Singular Value Decompostion) 等,其中SVD是六种矩阵分解中综合性最强,应用最广的分解.

4.0 特征值分解(EVD)

  空间中同一个线性变换,在不同的基底下,用于描述的矩阵是相似的,而过渡矩阵 P \boldsymbol{P} P联系了这些相似矩阵. 而选择一个好的基底,能够使变换对应的矩阵更加简洁,使描述和计算线性变换更加简单,所以希望线性变换矩阵是一个对角阵(因为他有很多优良的性质).

  在 R n \mathbb{R}^{n} Rn中,设 A ∈ R n × n \boldsymbol{A}\in\mathbb{R}^{n\times n} ARn×n,需要找到一个可逆矩阵 P \boldsymbol{P} P,使得 P − 1 A P = Λ \boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}=\boldsymbol{\Lambda} P1AP=Λ, 其中 Λ = diag { λ 1 ,   λ 2 , ⋯ λ n } \boldsymbol{\Lambda}=\text{diag}\{\lambda_1,\,\lambda_2,\cdots\lambda_n\} Λ=diag{λ1,λ2,λn} P = ( p 1 p 2 ⋯ p n ) \boldsymbol{P}=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix} P=(p1p2pn),实现 A \boldsymbol{A} A的对角化.
  左乘 P \boldsymbol{P} P,由于
A P = P Λ ⇒ A ( p 1 p 2 ⋯ p n ) = ( p 1 p 2 ⋯ p n ) ( λ 1 λ 2 ⋱ λ n ) ⇒ ( A p 1 A p 2 ⋯ A p n ) = ( λ 1 p 1 λ 2 p 2 ⋯ λ n p n ) \begin{aligned} \boldsymbol{A}\boldsymbol{P}&=\boldsymbol{P}\boldsymbol{\Lambda} \\ \Rightarrow\boldsymbol{A}\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix}&=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix} \begin{pmatrix} {\lambda_{1}}\\ &{\lambda_{2}}\\ &&{\ddots}\\ &&&{\lambda_{n}}\\ \end{pmatrix} \\\Rightarrow\begin{pmatrix}{\boldsymbol{A}\boldsymbol{p}_1}&{\boldsymbol{A}\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{A}\boldsymbol{p}_n}\end{pmatrix}&=\begin{pmatrix}{{\lambda_{1}}\boldsymbol{p}_1}&{\lambda_{2}}{\boldsymbol{p}_2}&{\cdots}&{\lambda_{n}}{\boldsymbol{p}_n}\end{pmatrix} \end{aligned} APA(p1p2pn)(Ap1Ap2Apn)=PΛ=(p1p2pn)λ1λ2λn=(λ1p1λ2p2λnpn)  问题转化为找到所有满足 A p i = λ i p i \boldsymbol{A}\boldsymbol{p}_i={{\lambda_{i}}\boldsymbol{p}_i} Api=λipi p i \boldsymbol{p}_i pi,且不同 p i \boldsymbol{p}_i pi之间线性无关. 方程整理,得 ( A − λ i E ) p i = 0 (\boldsymbol{A}-{{\lambda}_i\boldsymbol{E})\boldsymbol{p}_i}=0 (AλiE)pi=0   ⇔   \,\Leftrightarrow\, N ( A − λ i E ) = Span { p i } N(\boldsymbol{A}-{{\lambda}_i\boldsymbol{E}})=\text{Span}\{{\boldsymbol{p}_i}\} N(AλiE)=Span{pi}   ⇔   \,\Leftrightarrow\, det ( A − λ i E ) = 0 \text{det}(\boldsymbol{A}-{{\lambda}_i\boldsymbol{E}}) =0 det(AλiE)=0,进而求出 P \boldsymbol{P} P Λ \boldsymbol{\Lambda} Λ.
实对称矩阵性质优,且与二次型一一对应:

实对称矩阵性质
1实对称矩阵的不同特征值对应的特征向量是正交的
2实对称矩阵的特征值都是实数
3实对称矩阵必可相似对角化,且一定可正交相似对角化
4若实对称矩阵具有 k k k重特征值,则有 k k k个线性无关的特征向量
5实矩阵与其自身转置相乘能够得到实对称矩阵,且秩不变、半正定

  在 R n \mathbb{R}^{n} Rn中,设 A ∈ R n × n \boldsymbol{A}\in\mathbb{R}^{n\times n} ARn×n是一个实对称矩阵,考虑实对称矩阵的相似对角化
Q − 1 A Q = Λ ( Q − 1 A Q ) ⊤ = Λ Q ⊤ A ( Q − 1 ) ⊤ = Λ \begin{aligned}\boldsymbol{Q}^{-1}\boldsymbol{A}\boldsymbol{Q}=\boldsymbol{\Lambda} \\(\boldsymbol{Q}^{-1}\boldsymbol{A}\boldsymbol{Q})^{\top}=\boldsymbol{\Lambda} \\\boldsymbol{Q}^{\top}\boldsymbol{A}(\boldsymbol{Q}^{-1})^{\top}=\boldsymbol{\Lambda} \end{aligned} Q1AQ=Λ(Q1AQ)=ΛQA(Q1)=Λ得到 { Q − 1 = Q ⊤ Q = ( Q − 1 ) ⊤     \begin{cases} \boldsymbol{Q}^{-1}=\boldsymbol{Q}^{\top} \\\\\boldsymbol{Q}=(\boldsymbol{Q}^{-1})^{\top} \end{cases}\,\,\, Q1=QQ=(Q1). 所以 Q \boldsymbol{Q} Q是一个正交矩阵,因此 A \boldsymbol{A} A可以进行正交分解 Q ⊤ A Q = Λ \boldsymbol{Q}^{\top}\boldsymbol{A}\boldsymbol{Q}=\boldsymbol{\Lambda} QAQ=Λ因为 det ( Q ) = 1 \text{det}(\boldsymbol{Q})=1 det(Q)=1,所以正交分解保证二次型的形状(向量模长、向量夹角)不变.

正交矩阵性质
1 Q − 1 = Q ⊤ \boldsymbol{Q}^{-1}=\boldsymbol{Q}^\top Q1=Q,且都是正交矩阵
2 det ( Q ) = ± 1 \text{det}(\boldsymbol{Q})=\pm 1 det(Q)=±1
3同型正交矩阵的乘积是正交的
4正交矩阵 Q ∈ R n × n \boldsymbol{Q}\in\mathbb{R}^{n\times n} QRn×n全部行(列)向量是 R n \mathbb{R}^{n} Rn的一组标准正交基
5正交矩阵是欧氏空间中标准正交基到标准正交基的过渡矩阵

4.1 奇异值分解(SVD)

  EVD要求矩阵必须为方阵,且能够对角化,存在局限性. 设 A ∈ R m × n \boldsymbol{A}\in\mathbb{R}^{m\times n} ARm×n,考虑对于一般矩阵的分解. (未完)

应用二 主成分分析(PCA)

  数据特征如果是高维就要特征选择或者降维,特征选择是从原有特征中选择相关性高的特征,特征降维是从原有特征中整合出新的有代表性的特征,一个方法是主成分分析(PCA).

  全部样本数据(data)类似于一张全班同学的成绩单. 记自然基构成的矩阵为 E ∈ R m × m \boldsymbol{E}\in \mathbb{R}^{m\times m} ERm×m,全部样本在自然基底下的坐标为 X \boldsymbol{X} X,所以全部样本数据为 X = ( x 1 ⊤ x 2 ⊤ ⋮ x k ⊤ ⋮ x n ⊤ ) = ( x 1 , 1 x 1 , 2 ⋯ x 1 , i ⋯ x 1 , m − 1 x 1 , m x 2 , 1 x 2 , 2 ⋯ x 2 , i ⋯ x 2 , m − 1 x 2 , m ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮ x k , 1 x k , 2 ⋯ x k , i ⋯ x k , m − 1 x k , m ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮ x n , 1 x n , 2 ⋯ x n , 1 ⋯ x n , m − 1 x n , m ) = ( X 1 X 2 ⋯ X i ⋯ X m ) ∈ R n × m \boldsymbol{X}=\begin{pmatrix}\textcolor{red}{\boldsymbol{x}_1^\top}\\\textcolor{red}{\boldsymbol{x}_2^\top}\\{\vdots}\\\textcolor{red}{\boldsymbol{x}_k^\top}\\{\vdots}\\\textcolor{red}{\boldsymbol{x}_n^\top}\end{pmatrix}=\begin{pmatrix} {x_{\textcolor{red}{1},\textcolor{blue}{1}}}&{x_{\textcolor{red}{1},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{1},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{1},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{1},\textcolor{blue}{m}}}\\ {x_{\textcolor{red}{2},\textcolor{blue}{1}}}&{x_{\textcolor{red}{2},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{2},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{2},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{2},\textcolor{blue}{m}}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{\textcolor{red}{k},\textcolor{blue}{1}}}&{x_{\textcolor{red}{k},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{k},\textcolor{blue}{i}}}&{\cdots}&{x_{\textcolor{red}{k},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{k},\textcolor{blue}{m}}}\\{\vdots}&{\vdots}&{\ddots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\{x_{\textcolor{red}{n},\textcolor{blue}{1}}}&{x_{\textcolor{red}{n},\textcolor{blue}{2}}}&{\cdots}&{x_{\textcolor{red}{n},\textcolor{blue}{1}}}&{\cdots}&{x_{\textcolor{red}{n},\textcolor{blue}{m-1}}}&{x_{\textcolor{red}{n},\textcolor{blue}{m}}}\\ \end{pmatrix}=\begin{pmatrix}\textcolor{blue}{X_1}&\textcolor{blue}{X_2}&{\cdots}&\textcolor{blue}{X_i}&{\cdots}&\textcolor{blue}{X_m}\end{pmatrix} \in\mathbb{R}^{n\times m} X=x1x2xkxn=x1,1x2,1xk,1xn,1x1,2x2,2xk,2xn,2x1,ix2,ixk,ixn,1x1,m1x2,m1xk,m1xn,m1x1,mx2,mxk,mxn,m=(X1X2XiXm)Rn×m.

   m \textcolor{blue}m m特征维度每列代表不同特征(如语文成绩、数学成绩等),第 i \textcolor{blue}i i特征数据表示为 X i \textcolor{blue}{X_i} Xi
   n \textcolor{red}n n样本数量每行是一个样本(如小明、小红等),第 k \textcolor{red}k k样本表示为 x k ⊤ \textcolor{red}{\boldsymbol{x}_k^\top} xk(转置为行向量表示).
  每个特征的样本(specimen)的均值 X ˉ i \bar{X}_i Xˉi和方差 s i 2 s^2_i si2分别是该特征的总体(population)期望 μ i \mu_i μi和方差 σ i 2 \sigma^2_i σi2的无偏估计(Unbiased estimate). 可以使用样本方差表示同一特征中不同数据的分散程度,而协方差则反应了两组随机变量之间的相关程度,定义为
Cov [ X 1 ,   X 2 ] = E [ X 1 − μ 1 ] E [ X 2 − μ 2 ] \begin{aligned} \text{Cov}[X_1,\,X_2]=E[X_1-\mu_1]E[X_2-\mu_2] \end{aligned} Cov[X1,X2]=E[X1μ1]E[X2μ2]样本协方差也是总体协方差的无偏估计,定义为
cov [ X 1 ,   X 2 ] = E [ X 1 − X ˉ 1 ] E [ X 2 − X ˉ 2 ] \begin{aligned} \text{cov}[X_1,\,X_2]=E[X_1-\bar{X}_1]E[X_2-\bar{X}_2] \end{aligned} cov[X1,X2]=E[X1Xˉ1]E[X2Xˉ2]   方差就是信息,方差越大,信息越多.

  定义协方差矩阵:
Σ = E [ ( X − μ ) ( X − μ ) ⊤ ] = E [ ( X 1 − μ 1 X 2 − μ 2 ⋮ X m − μ m ) ( X 1 − μ 1 X 2 − μ 2 ⋯ X m − μ m ) ] = ( E ( X 1 − μ 1 ) 2 E [ ( X 1 − μ 1 ) ( X 2 − μ 2 ) ] ⋯ E [ ( X 1 − μ 1 ) ( X m − μ m ) ] E [ ( X 2 − μ 2 ) ( X 1 − μ 1 ) ] E ( X 2 − μ 2 ) 2 ⋯ E [ ( X 2 − μ 2 ) ( X m − μ m ) ] ⋮ ⋮ ⋱ ⋮ E [ ( X m − μ m ) ( X 1 − μ 1 ) ] E [ ( X m − μ m ) ( X 2 − μ 2 ) ] ⋯ E ( X m − μ m ) 2 ) = ( σ 1 2 Cov [ X 1 ,   X 2 ] ⋯ Cov [ X 1 ,   X m ] Cov [ X 2 ,   X 1 ] σ 2 2 ⋯ Cov [ X 2 ,   X m ] ⋮ ⋮ ⋱ ⋮ Cov [ X m ,   X 1 ] Cov [ X m ,   X 2 ] ⋯ σ m 2 ) \begin{aligned} \boldsymbol{\Sigma} &={E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{\top}\right] \\\\&={E}\left[\begin{pmatrix}{{X}_1}-{\mu}_1\\{{X}_2}-{\mu}_2\\{\vdots}\\{{X}_m}-{\mu}_m\end{pmatrix} \begin{pmatrix}{{X}_1}-{\mu}_1&{{X}_2}-{\mu}_2&{\cdots}&{{X}_m}-{\mu}_m\end{pmatrix}\right] \\\\ &=\begin{pmatrix}{E}\left(X_{1}-\mu_{1}\right)^2 & {E}\left[\left(X_{1}-\mu_{1}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & {E}\left[\left(X_{1}-\mu_{1}\right)\left(X_{m}-\mu_{m}\right)\right] \\ {E}\left[\left(X_{2}-\mu_{2}\right)\left(X_{1}-\mu_{1}\right)\right] & {E}\left(X_{2}-\mu_{2}\right)^2 & \cdots & {E}\left[\left(X_{2}-\mu_{2}\right)\left(X_{m}-\mu_{m}\right)\right] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\ {E}\left[\left(X_{m}-\mu_{m}\right)\left(X_{1}-\mu_{1}\right)\right] & {E}\left[\left(X_{m}-\mu_{m}\right)\left(X_{2}-\mu_{2}\right)\right] & \cdots & {E}\left(X_{m}-\mu_{m}\right)^2\end{pmatrix} \\\\&=\begin{pmatrix}\sigma_1^2&\text{Cov}[X_1,\,X_2]& \cdots &\text{Cov}[X_1,\,X_m] \\\text{Cov}[X_2,\,X_1]&\sigma_2^2&\cdots &\text{Cov}[X_2,\,X_m] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\\text{Cov}[X_m,\,X_1]&\text{Cov}[X_m,\,X_2]&\cdots&\sigma_m^2 \end{pmatrix} \end{aligned} Σ=E[(Xμ)(Xμ)]=EX1μ1X2μ2Xmμm(X1μ1X2μ2Xmμm)=E(X1μ1)2E[(X2μ2)(X1μ1)]E[(Xmμm)(X1μ1)]E[(X1μ1)(X2μ2)]E(X2μ2)2E[(Xmμm)(X2μ2)]E[(X1μ1)(Xmμm)]E[(X2μ2)(Xmμm)]E(Xmμm)2=σ12Cov[X2,X1]Cov[Xm,X1]Cov[X1,X2]σ22Cov[Xm,X2]Cov[X1,Xm]Cov[X2,Xm]σm2由于样本均值和样本方差独立,所以改变样本均值不会改变样本的离散程度. 所以为方便计算,经平移变换,将每个特征的样本均值 X ˉ i = 0 \bar{X}_i=0 Xˉi=0(或 μ i = 0 \mu _i=0 μi=0),再去进而得到样本的协方差矩阵: Σ x = ( s 1 2 cov [ X 1 ,   X 2 ] ⋯ cov [ X 1 ,   X m ] cov [ X 2 ,   X 1 ] s 2 2 ⋯ cov [ X 2 ,   X m ] ⋮ ⋮ ⋱ ⋮ cov [ X m ,   X 1 ] cov [ X m ,   X 2 ] ⋯ s m 2 ) = 1 n − 1 X X ⊤ \begin{aligned} \boldsymbol{\Sigma}_x &= \begin{pmatrix}s^2_1&\text{cov}[X_1,\,X_2]& \cdots &\text{cov}[X_1,\,X_m] \\\text{cov}[X_2,\,X_1]&s^2_2&\cdots &\text{cov}[X_2,\,X_m] \\{\vdots}&{\vdots}&{\ddots}&{\vdots} \\\text{cov}[X_m,\,X_1]&\text{cov}[X_m,\,X_2]&\cdots&s^2_m \end{pmatrix} \\\\&=\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top \end{aligned} Σx=s12cov[X2,X1]cov[Xm,X1]cov[X1,X2]s22cov[Xm,X2]cov[X1,Xm]cov[X2,Xm]sm2=n11XX不难发现它就是零均值化后的样本矩阵与其自身转置相乘后的结果,显然协方差矩阵是一个(半)正定、满秩的实对称矩阵. 应当考虑矩阵分解.

  EVD分解方法: 希望进行特征降维,要确保各特征间的相关性为0,若不保证相关性为0,则去掉其中一个特征后,必然会更多地影响其他特征对样本的贡献. 记自然基构成的矩阵为 E ∈ R m × m \boldsymbol{E}\in \mathbb{R}^{m\times m} ERm×m,全部样本在基底 A \boldsymbol{A} A下的坐标为 Y \boldsymbol{Y} Y. 问题转化为寻找一组新的标准正交基 A ∈ R m × m \boldsymbol{A}\in\mathbb{R}^{m\times m} ARm×m,在 Span { A } \text{Span}\{\boldsymbol{A}\} Span{A}上所有样本特征之间的协方差均为0: Σ y = 1 n − 1 Y Y ⊤ \begin{aligned} \boldsymbol{\Sigma}_y &=\frac{1}{n-1}\boldsymbol{Y}\boldsymbol{Y}^\top \end{aligned} Σy=n11YY  记由基 E → A \boldsymbol{E}\to\boldsymbol{A} EA的过渡矩阵 Q \boldsymbol{Q} Q(是正交矩阵),基变换公式为 A = E Q = Q \boldsymbol{A}=\boldsymbol{E}\boldsymbol{Q}=\boldsymbol{Q} A=EQ=Q,对应 X → Y \boldsymbol{X}\to\boldsymbol{Y} XY的坐标变换公式为 X = Q Y = A Y \boldsymbol{X}=\boldsymbol{Q}\boldsymbol{Y}=\boldsymbol{A}\boldsymbol{Y} X=QY=AY. 则协方差矩阵进一步表示为
Σ x = 1 n − 1 X X ⊤ = 1 n − 1 A Y ( A Y ) ⊤ = A ( 1 n − 1 Y Y ⊤ ) A ⊤ = A Σ y A ⊤ \begin{aligned} \boldsymbol{\Sigma}_x &=\frac{1}{n-1}\boldsymbol{X}\boldsymbol{X}^\top \\\\&=\frac{1}{n-1}\boldsymbol{A}\boldsymbol{Y}(\boldsymbol{A}\boldsymbol{Y})^\top \\\\&=\boldsymbol{A}(\frac{1}{n-1}\boldsymbol{Y}\boldsymbol{Y}^\top)\boldsymbol{A}^\top \\\\&=\boldsymbol{A}\boldsymbol{\Sigma}_y\boldsymbol{A}^\top \end{aligned} Σx=n11XX=n11AY(AY)=A(n11YY)A=AΣyA等价于对协方差矩阵正交分解
Σ x = Q Λ Q ⊤ \begin{aligned} \boldsymbol{\Sigma}_x&=\boldsymbol{Q}\boldsymbol{\Lambda}\boldsymbol{Q}^\top \end{aligned} Σx=QΛQ因此求得 { A = Q Σ y = Λ     \begin{cases} \boldsymbol{A}=\boldsymbol{Q} \\\\\boldsymbol{\Sigma}_y=\boldsymbol{\Lambda} \end{cases}\,\,\, A=QΣy=Λ.

  协方差矩阵的特征值大小代表了变换后每个特征的方差大小,因此应当保留特征值大的特征,丢弃特征值小的特征,对应的特征向量随之扬弃.

SVD分解方法: (未完)

上下篇参考资料链接

什么是主成分分析(PCA)_Hsuty

奇异值分解(SVD)原理总结_小白学视觉

ZhiHu_问答界面

矩阵论(二)相似变换_乌兰巴托海军

1.9 线性变换的矩阵(第1章 线性代数中的线性方程组)_泰克尼客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值