下面的一系列分解,涉及了线性代数中的各个重要知识点:
关于求解方程组的分解:
- Ch1[矩阵乘法角度] 矩阵 A \mathbf A A=列向量矩阵 C \mathbf C C和行向量矩阵 R \mathbf R R的乘积
- Ch2[消元解方程组] LU分解
- Ch3[施密特正交化] QR分解:将列向量线性无关的矩阵 A \mathbf A A,转为正交矩阵 Q \mathbf Q Q,且 R \mathbf R R必为上三角阵
关于特征值/特征向量/奇异值的分解:
- Ch4[相似对角化] 得到特征值和特征向量后,矩阵 A \mathbf A A相似于以特征值为对角元的对角阵 Λ \mathbf \Lambda Λ
- Ch5[对称矩阵] 对称矩阵 S \mathbf S S具有正交的特征向量,对角化得到 S = Q Λ Q T \mathbf S=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^T S=QΛQT
- CH6[奇异值分解(“广义对角化”操作)] 任意矩阵可分解为 A = U Σ V T \mathbf A=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^T A=UΣVT,其中 Σ \boldsymbol{\Sigma} Σ中左上角的对角阵对应将行空间中的标准正交基映射到列空间的标准正交基( A v i = σ i u i \mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i Avi=σiui,这类似于找出特征值和特征向量); Σ \boldsymbol{\Sigma} Σ中其余部分为0元素,对应 A \mathbf {A} A的零空间中的一组正交基
Ch4. 特征值、特征向、相似对角化、谱分解
特征值与特征向量
对于任意方阵 A \mathbf A A,将其理解为线性变换,变换后有些向量的方向不被改变,即特征向量 A x i = λ i x i \mathbf A\mathbf x_i=\lambda_i\mathbf x_i Axi=λixi
特征向量的性质:
- A − 1 x = 1 λ x \mathbf A^{-1}\mathbf x=\frac{1}{\lambda}\mathbf x A−1x=λ1x,注意,若矩阵可逆,此处必有 λ ≠ 0 \lambda\neq 0 λ=0(若 λ = 0 \lambda= 0 λ=0则 A \mathbf A A是降维变换,不可逆。或者说 A x = λ x = 0 \mathbf A\mathbf x=\lambda\mathbf x=0 Ax=λx=0即存在零空间,则矩阵不满秩,不可逆)
- 矩阵 A B \mathbf A\mathbf B AB和矩阵 B A \mathbf B\mathbf A BA具有相同的非零特征值(但是注意, A B \mathbf A\mathbf B AB的特征值不等于 A \mathbf A A特征值的 × \times × B \mathbf B B的特征值, A + B \mathbf A+\mathbf B A+B的特征值不等于 A \mathbf A A特征值的 + + + B \mathbf B B的特征值,因为 A \mathbf A A和 B \mathbf B B两个矩阵的特征向量很可能不同)
证明: B A = B ( A B ) B − 1 \mathbf B\mathbf A=\mathbf B(\mathbf A\mathbf B)\mathbf B^{-1} BA=B(AB)B−1,即 A B \mathbf A\mathbf B AB相似于 B A \mathbf B\mathbf A BA,特征值相同
当然,前提是 A \mathbf A A和 B \mathbf B B可逆,这就是为什么强调“非零特征值”(如果特征值取0,则不存在逆矩阵了)
引入特征向量的好处:
- 容易计算矩阵的幂: A k x = λ k x \mathbf A^k\mathbf x=\lambda^k\mathbf x Akx=λkx
计算差分方程 u k + 1 = A u k \mathbf{u}_{k+1}=\boldsymbol{A} \mathbf{u}_{k} uk+1=Auk的解 u k = A k u 0 \mathbf{u}_{k}=\boldsymbol{A}^k \mathbf{u}_{0} uk=Aku0时,
可以先拆分 u 0 = c 1 x 1 + c 2 x 2 + … + c n x n \mathbf{u}_{0}=c_{1} \mathbf{x}_{1}+c_{2} \mathbf{x}_{2}+\ldots+c_{n} \mathbf{x}_{n} u0=c1x1+c2x2+…+cnxn,则 A k u 0 = c 1 λ 1 k x 1 + c 2 λ 2 k x 2 + … + c n λ n k x n \boldsymbol{A}^k \mathbf{u}_{0}=c_{1} \lambda_{1}^{k} \mathbf{x}_{1}+c_{2} \lambda_{2}^{k} \mathbf{x}_{2}+\ldots+c_{n} \lambda_{n}^{k} \mathbf{x}_{n} Aku0=c1λ1kx1+c2λ2kx2+…+cnλnkxn
- 容易计算矩阵的指数:
e
A
t
x
=
e
λ
t
x
e^{\boldsymbol{A} t} \mathbf{x}=e^{\lambda t} \mathbf{x}
eAtx=eλtx(ps. 这里的指数概念,根据级数来定义:
( I + A t + 1 2 ( A t ) 2 + ⋯ ) x = ( 1 + λ t + 1 2 ( λ t ) 2 + ⋯ ) x \left(I+A t+\frac{1}{2}(A t)^{2}+\cdots\right) \boldsymbol{x}=\left(1+\lambda t+\frac{1}{2}(\lambda t)^{2}+\cdots\right) \boldsymbol{x} (I+At+21(At)2+⋯)x=(1+λt+21(λt)2+⋯)x)
计算微分方程 d u d t = A u \frac{d \mathbf{u}}{d t} =\boldsymbol{A} \mathbf{u} dtdu=Au的解 u ( t ) = e A t u ( 0 ) \mathbf{u}(\mathrm{t}) =e^{\boldsymbol{A} t} \mathbf{u}(0) u(t)=eAtu(0)时,
可以先拆分 u ( 0 ) = c 1 x 1 + c 2 x 2 + … + c n x n \mathbf{u}(0)=c_{1} \mathbf{x}_{1}+c_{2} \mathbf{x}_{2}+\ldots+c_{n} \mathbf{x}_{n} u(0)=c1x1+c2x2+…+cnxn,则 e A t u ( 0 ) = c 1 e λ 1 t x 1 + c 2 e λ 2 t x 2 + . . . + c n e λ n t x n e^{\boldsymbol{A} t} \mathbf{u}(0)=c_{1} e^{\lambda_{1} t} \mathbf{x}_{1}+c_{2} e^{\lambda_{2} t} \mathbf{x}_{2}+...+c_{n} e^{\lambda_{n} t} \mathbf{x}_{n} eAtu(0)=c1eλ1tx1+c2eλ2tx2+...+cneλntxn
相似矩阵
相似矩阵 A ∼ B \mathbf A \sim \mathbf B A∼B,满足 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM
注意,随着可逆矩阵 M \mathbf M M取值不同,可以得到一系列的(无数个)相似矩阵,但它们是同一种变换在不同坐标系下的表现形式,它们的的特征值、迹、行列式完全相同(这些都是相似不变量)
验证:相似的矩阵,特征值相同
假设 B x = λ x \mathbf B\mathbf x=\lambda \mathbf x Bx=λx,那么 M − 1 A M x = λ x \mathbf {M^{-1}AM}\mathbf x=\lambda \mathbf x M−1AMx=λx,即 A ( M x ) = λ ( M x ) \mathbf A(\mathbf {M}\mathbf x)=\lambda (\mathbf {M}\mathbf x) A(Mx)=λ(Mx)
A \mathbf A A的特征值仍为 λ \lambda λ,特征向量为 M x \mathbf {M}\mathbf x Mx
由于相似矩阵有相同特征值,只要为 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM找出合适的 M \mathbf {M} M,就能保证 A \mathbf A A的相似矩阵 B \mathbf B B为上三角矩阵/对角矩阵(特征值就位于对角线上),从而轻易地找出 A \mathbf A A的特征值,这就是为什么需要相似对角化。
相似对角化
对于单纯矩阵
A
\mathbf A
A,其特征向量满足
A
x
i
=
λ
i
x
i
\mathbf A\mathbf x_i=\lambda_i\mathbf x_i
Axi=λixi,矩阵形式为
A
X
=
X
Λ
\mathbf A\mathbf X=\mathbf X\mathbf \Lambda
AX=XΛ
如果有
n
n
n个无关的特征向量(即
X
\mathbf X
X可逆),则
A
\mathbf A
A可被相似对角化为
A
=
X
Λ
X
−
1
\mathbf A=\mathbf X\mathbf \Lambda\mathbf X^{-1}
A=XΛX−1
A
=
X
Λ
X
−
1
=
[
v
1
v
2
⋯
v
n
]
[
λ
1
λ
2
⋱
λ
n
]
[
w
1
T
w
2
T
⋮
w
n
T
]
\mathbf A=\mathbf X\mathbf \Lambda\mathbf X^{-1}=\left[\begin{array}{llll} \mathbf{v}_{1} & \mathbf{v}_{2} & \cdots & \mathbf{v}_{\mathrm{n}} \end{array}\right]\left[\begin{array}{llll} \lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{\mathrm{n}} \end{array}\right]\left[\begin{array}{c} \mathbf{w}_{1}^{T} \\ \mathbf{w}_{2}^{T} \\ \vdots \\ \mathbf{w}_{\mathrm{n}}^{T} \end{array}\right]
A=XΛX−1=[v1v2⋯vn]⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤⎣⎢⎢⎢⎡w1Tw2T⋮wnT⎦⎥⎥⎥⎤
- 其中, X \mathbf X X矩阵的列对应 n n n个线性无关特征向量, Λ \mathbf \Lambda Λ给出相应的特征值
相似对角化的应用:
首先,便于我们研究矩阵的幂: A n = X Λ n X − 1 \mathbf A^n=\mathbf X\mathbf \Lambda^n\mathbf X^{-1} An=XΛnX−1(特征值变为 λ n \lambda^n λn,特征向量不变)
推论:当 ∣ λ ∣ < 1 |\lambda|<1 ∣λ∣<1, n → ∞ n\rightarrow\infty n→∞时 λ → 0 \lambda\rightarrow 0 λ→0,对应的那些特征向量“消失”,由此可以进一步研究差分方程 u k = A k u 0 \mathbf u_k=\mathbf A^k\mathbf u_0 uk=Aku0的稳态问题
秩1矩阵是构造复杂矩阵的基石,同样可以从秩1矩阵的角度来理解上述的分解:
回顾之前内容:秩1矩阵只有一行/一列是线性无关的,对应了 A = C R \mathbf A=\mathbf C\mathbf R A=CR中, C \mathbf C C和 R \mathbf R R退化为列向量和行向量
此时,矩阵乘法理解为“列向量乘以行向量(外积)(而不是行向量乘以列向量),结果是秩1矩阵 b i c i ∗ b_ic_i^* bici∗
再次用“列向量乘以行向量=秩1矩阵”的观点来看相似对角化,则有
A
=
(
X
Λ
)
X
−
1
=
[
λ
1
v
1
λ
2
v
2
⋯
λ
n
v
n
]
[
w
1
T
w
2
T
⋮
w
n
T
]
=
λ
1
v
1
w
1
T
+
.
.
.
+
λ
n
v
n
w
n
T
\mathbf A=(\mathbf X\mathbf \Lambda)\mathbf X^{-1}=\left[\begin{array}{llll} \lambda_1\mathbf{v}_{1} & \lambda_2\mathbf{v}_{2} & \cdots & \lambda_n\mathbf{v}_{\mathrm{n}} \end{array}\right]\left[\begin{array}{c} \mathbf{w}_{1}^{T} \\ \mathbf{w}_{2}^{T} \\ \vdots \\ \mathbf{w}_{\mathrm{n}}^{T} \end{array}\right]=\lambda_1\mathbf{v}_{1}\mathbf{w}_{1}^T+...+\lambda_n\mathbf{v}_{n}\mathbf{w}_{n}^T
A=(XΛ)X−1=[λ1v1λ2v2⋯λnvn]⎣⎢⎢⎢⎡w1Tw2T⋮wnT⎦⎥⎥⎥⎤=λ1v1w1T+...+λnvnwnT
这正是矩阵的谱分解,其中每个秩1矩阵
A
i
=
v
i
w
i
T
\mathbf A_i=\mathbf{v}_{i}\mathbf{w}_{i}^T
Ai=viwiT都是幂等矩阵(原因:由
X
−
1
X
=
I
\mathbf X^{-1}\mathbf X=\mathbf I
X−1X=I知
w
T
v
=
1
\mathbf w^{T}\mathbf v=1
wTv=1,故
A
i
2
=
A
i
\mathbf A_i^2=\mathbf A_i
Ai2=Ai)
注意,仅对于方阵有“特征值”的概念,对于矩形的矩阵,“特征值”推广为奇异值
Ch5. 对称矩阵与 A T A \mathbf A^T\mathbf A ATA
对称矩阵 S \mathbf{S} S
对称矩阵 S \mathbf{S} S的特征:
- 特征值为实数
- 拥有一套正交的特征向量
这里隐含的关键点是:即使有些特征值重复,仍有足够数量的无关特征向量
推论(谱定理):对称矩阵的相似对角化结果为 S = Q Λ Q − 1 = Q Λ Q T \boldsymbol{S}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{-1}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T} S=QΛQ−1=QΛQT
由于特征向量正交,故 Q \boldsymbol{Q} Q为正交矩阵,进一步导致了 Q − 1 \boldsymbol{Q}^{-1} Q−1可写成 Q T \boldsymbol{Q}^{T} QT(标准正交基满足 Q T Q = I \boldsymbol{Q}^{T}\boldsymbol{Q}=\boldsymbol{I} QTQ=I)
理解 [对称矩阵有实特征值]:
-
例如, S = [ 0 1 1 0 ] = [ 1 1 1 − 1 ] [ 1 0 0 1 ] [ 1 1 1 − 1 ] = Q Λ Q T \boldsymbol{S}=\begin{bmatrix} 0 &1 \\ 1 &0\end{bmatrix}=\begin{bmatrix} 1 &1 \\ 1 &-1\end{bmatrix}\begin{bmatrix} 1 &0 \\ 0 &1\end{bmatrix}\begin{bmatrix} 1 &1 \\ 1 &-1\end{bmatrix}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T} S=[0110]=[111−1][1001][111−1]=QΛQT
这个变换效果是将x轴换到y轴,y轴换到x轴
特征向量是两条斜向的“对角线”即 [ 1 1 ] \begin{bmatrix} 1 \\ 1\end{bmatrix} [11]和 [ 1 − 1 ] \begin{bmatrix} 1 \\ -1\end{bmatrix} [1−1] -
相比之下,任何反对称矩阵都没有实特征向量/实特征值
例如 A = [ 0 1 − 1 0 ] \boldsymbol{A}=\begin{bmatrix} 0 &1 \\ -1 &0\end{bmatrix} A=[0−110]对应于90度旋转的变换,故特征值/特征向量都为虚数
再次用“列向量乘以行向量=秩1矩阵”的观点来看,有 A = ( Q Λ ) Q − 1 = [ λ 1 q 1 λ 2 q 2 ⋯ λ n q n ] [ q 1 T q 2 T ⋮ q n T ] = λ 1 q 1 q 1 T + . . . + λ n q n q n T \mathbf A=(\mathbf Q\mathbf \Lambda)\mathbf Q^{-1}=\left[\begin{array}{llll} \lambda_1\mathbf{q}_{1} & \lambda_2\mathbf{q}_{2} & \cdots & \lambda_n\mathbf{q}_{\mathrm{n}} \end{array}\right]\left[\begin{array}{c} \mathbf{q}_{1}^{T} \\ \mathbf{q}_{2}^{T} \\ \vdots \\ \mathbf{q}_{\mathrm{n}}^{T} \end{array}\right]=\lambda_1\mathbf{q}_{1}\mathbf{q}_{1}^T+...+\lambda_n\mathbf{q}_{n}\mathbf{q}_{n}^T A=(QΛ)Q−1=[λ1q1λ2q2⋯λnqn]⎣⎢⎢⎢⎡q1Tq2T⋮qnT⎦⎥⎥⎥⎤=λ1q1q1T+...+λnqnqnT这正是谱定理,其中 q i q i T \mathbf q_i\mathbf q_i^T qiqiT为秩1矩阵
对称方阵 A T A \mathbf A^T\mathbf A ATA
对于任意的 A \mathbf A A, A T A \mathbf A^T\mathbf A ATA必为对称方阵: ( A T A ) T = A T A (\mathbf A^T\mathbf A)^T=\mathbf A^T\mathbf A (ATA)T=ATA,并且 A T A \mathbf A^T\mathbf A ATA至少为半正定矩阵( A \mathbf A A列满秩时则为正定的)
A T A \mathbf A^T\mathbf A ATA同样具有半正定矩阵的所有性质
- 所有特征值 λ ≥ 0 \lambda\geq 0 λ≥0
- 对任意 x \mathbf x x, x T ( A T A ) x ≥ 0 \mathbf x^T(\mathbf A^T\mathbf A)\mathbf x\geq 0 xT(ATA)x≥0
正定矩阵
对称矩阵具有实特征值和正交的特征向量;
正定矩阵是“最好的”一类对称矩阵,它们不仅是对称矩阵,还具有正实数特征值
下面的5个等价判据,满足任何一个,即为正定矩阵:
- 原始定义:二次型(或者说“能量”) x T A x > 0 ( x ≠ 0 ) \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xTAx>0(x=0)
- 所有特征值为正实数,即 λ > 0 \lambda>0 λ>0
- 矩阵左上角所有子矩阵(顺序主子是)的行列式全为正
- 对矩阵消元后,所有主元pivot全为正实数
- 正定矩阵 A \boldsymbol{A} A可被分解为 A = M T M \boldsymbol{A}=\boldsymbol{M}^T\boldsymbol{M} A=MTM,其中 M \boldsymbol{M} M列向量线性无关
ps. 正定/负定/半正定阵,都是在二次型部分引入的,谈论矩阵是“正定阵”的大前提:矩阵必须首先是一个实对称/复Hermite阵
推论:若 A \boldsymbol{A} A和 B \boldsymbol{B} B为正定矩阵,则
- A − 1 \boldsymbol{A}^{-1} A−1为正定矩阵,因为其特征值 1 / λ 1/\lambda 1/λ都为正实数
- A + B \boldsymbol{A+B} A+B为正定矩阵,因为 x T ( A + B ) x = x T A x + x T B x > 0 ( x ≠ 0 ) \mathbf{x}^{T} (\boldsymbol{A+B}) \mathbf{x}=\mathbf{x}^{T} \boldsymbol{A} \mathbf{x}+\mathbf{x}^{T} \boldsymbol{B} \mathbf{x}>0 \quad(\mathbf{x}\neq 0) xT(A+B)x=xTAx+xTBx>0(x=0)
-
Q
T
A
−
1
Q
\boldsymbol Q^T\boldsymbol{A}^{-1}\boldsymbol Q
QTA−1Q(
Q
\boldsymbol Q
Q为正交阵,整个矩阵必为对称的)为正定矩阵
理解1: Q T A − 1 Q \boldsymbol Q^T\boldsymbol{A}^{-1}\boldsymbol Q QTA−1Q与 A \boldsymbol{A} A相似,特征值相同,都为正实数
理解2:验证 x T ( Q T A − 1 Q ) x = ( Q x ) T A ( Q x ) > 0 ( x ≠ 0 ) \mathbf{x}^{T}(\boldsymbol Q^T\boldsymbol{A}^{-1}\boldsymbol Q)\mathbf{x}=(\boldsymbol Q\mathbf{x})^T\boldsymbol{A}(\boldsymbol Q\mathbf{x})>0 \quad(\mathbf{x}\neq 0) xT(QTA−1Q)x=(Qx)TA(Qx)>0(x=0)
用“列向量乘以行向量=秩1矩阵”的观点来看,有(正定阵仍为对称阵,与对称阵的分解相同) A = Q Λ Q T = λ 1 q 1 q 1 T + . . . + λ n q n q n T \mathbf A=\mathbf Q\mathbf \Lambda\mathbf Q^{T}=\lambda_1\mathbf{q}_{1}\mathbf{q}_{1}^T+...+\lambda_n\mathbf{q}_{n}\mathbf{q}_{n}^T A=QΛQT=λ1q1q1T+...+λnqnqnT其中 q i q i T \mathbf q_i\mathbf q_i^T qiqiT为秩1矩阵
半正定矩阵
半正定矩阵(Positive Semi-Definite)是正定矩阵和负定矩阵的“边界”
半正定矩阵满足:
- x T A x ≥ 0 ( x ≠ 0 ) \mathbf{x}^{T} \boldsymbol{A} \mathbf{x}\geq0 \quad(\mathbf{x}\neq 0) xTAx≥0(x=0)
- 所有特征值为非负实数,即 λ ≥ 0 \lambda\geq0 λ≥0(存在0特征值)
- 行列式为0(不可逆/奇异矩阵)
- 正定矩阵 A \boldsymbol{A} A可被分解为 A = M T M \boldsymbol{A}=\boldsymbol{M}^T\boldsymbol{M} A=MTM,其中 M \boldsymbol{M} M列向量可以线性
例如 [ 1 1 1 1 1 1 1 1 1 ] \begin{bmatrix} 1 & 1 & 1\\ 1 & 1 & 1\\1 & 1 &1\end{bmatrix} ⎣⎡111111111⎦⎤为一个半正定矩阵,其特征值为 3 , 0 , 0 3,0,0 3,0,0(因为矩阵秩为1,故只有一个非零特征值,其余两个特征值为0,根据迹=3可知,非零特征值为3)
另外,用“列向量乘以行向量=秩1矩阵”的观点来看,有 A = Q Λ Q T = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + λ 3 q 3 q 3 T \mathbf A=\mathbf Q\mathbf \Lambda\mathbf Q^{T}=\lambda_1\mathbf{q}_{1}\mathbf{q}_{1}^T+\lambda_2\mathbf{q}_{2}\mathbf{q}_{2}^T+\lambda_3\mathbf{q}_{3}\mathbf{q}_{3}^T A=QΛQT=λ1q1q1T+λ2q2q2T+λ3q3q3T此时 λ 2 = λ 3 = 0 \lambda_2=\lambda_3=0 λ2=λ3=0,只剩下第一项,即
[ 1 1 1 1 1 1 1 1 1 ] = 3 [ 1 / 3 1 / 3 1 / 3 ] [ 1 / 3 1 / 3 1 / 3 ] \left[\begin{array}{lll} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{array}\right]=3\left[\begin{array}{l} 1 / \sqrt{3} \\ 1 / \sqrt{3} \\ 1 / \sqrt{3} \end{array}\right]\left[\begin{array}{lll} 1 / \sqrt{3} & 1 / \sqrt{3} & 1 / \sqrt{3}] \end{array}\right. ⎣⎡111111111⎦⎤=3⎣⎡1/31/31/3⎦⎤[1/31/31/3]
Ch6. 奇异值分解SVD
上面说过,特征值和特征向量由相似对角化给出
然而,仅方阵有“特征值”的概念;且 相似对角化 要求有足够的特征向量(并非每个矩阵都有足够的无关特征向量)
对于更一般的矩阵,“特征值”推广为奇异值
奇异值分解 A = U Σ V T \boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T} A=UΣVT(正交矩阵x对角阵x正交矩阵),其中:
- U \boldsymbol{U} U保存了左奇异向量; V \boldsymbol V V保存了右奇异向量,注意这是两个不同的奇异向量集,或者说 两组单位正交基(与相似对角化的情况不同)
- 特征值:
A
x
=
λ
x
\mathbf A\mathbf x=\lambda\mathbf x
Ax=λx,变换中特性向量被单纯拉伸;
奇异值: A v i = σ i u i \mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i Avi=σiui,变换中奇异向量被旋转+拉伸+旋转
再次用“列向量乘以行向量=秩1矩阵”的观点来看
- 对于一般矩阵,可以拆分为多个秩1矩阵 即 b i c i ∗ b_ic_i^* bici∗ 叠加得到结果
- 对于对称矩阵, S = Q Λ Q T \boldsymbol{S}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T} S=QΛQT可以视为将对称矩阵拆分为一系列秩1矩阵 λ i q i q i T \lambda_i\mathbf q_i\mathbf q_i^T λiqiqiT的和
- 对于更一般的矩阵,
A
=
U
Σ
V
T
\mathbf{A=U \Sigma}\mathbf V^T
A=UΣVT可以视为将对称矩阵拆分为一系列秩1矩阵
σ
i
u
i
v
i
T
\sigma_i\mathbf u_i\mathbf v_i^T
σiuiviT的和
其中 σ i \sigma_i σi为奇异值,是特征值的推广
SVD的应用:用低秩矩阵近似复杂矩阵
SVD给出了矩阵的重要特征
- 利用SVD,我们将整个矩阵拆分一系列秩1矩阵 σ i u i v i T \sigma_i\mathbf u_i\mathbf v_i^T σiuiviT的和
- 奇异值
σ
i
\sigma_i
σi越大,相应的秩1矩阵越重要
从而,我们适当保留前 k k k个最大的奇异值 σ 1 . . . σ k \sigma_1...\sigma_k σ1...σk,它们的和是低秩的矩阵,但却可以很好地接近原来的复杂矩阵 - 此外,我们还用奇异值 σ i \sigma_i σi定义矩阵的范数Norm,从而衡量矩阵的大小
随机数值线性代数
当矩阵过大、不便于处理时,对矩阵进行随机采样,从而处理大规模线性代数问题,称为随机数值线性代数RandNLA(Randomized Numerical Linear Algebra)
引用:MIT线性代数_2020年更新讲解课程
资源指引: