当我学矩阵论时,我学到了什么?
learning why, thinking what, then forgetting how.
随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分。
教材为:《矩阵论教程 第2版(张绍飞、赵迪)》
一、线性代数引论
1.1 线性空间
引出加群和数域的概念。
加群和数域共同组成线性空间或向量空间。加群中为向量,数域中为标量。
某加群在某数域下构成线性空间。
提出了零空间或核作为方程组 AX=0 的解空间的概念。
提出了线性无关和维数的概念。
提出了基底和在其下表示的坐标的概念。
空间维数是和数域相关的。例如,C 是 C 上的一维空间,是 R 上的二维空间,是 Q 上的无限维空间。
提出了用于基底变换的过渡矩阵或变换矩阵的概念。基变换矩阵确定了坐标变换公式。
提出了子空间的概念。
和空间的维度 = 两个子空间的维度和 - 交空间的维度。
并空间不是子空间。
如果交空间为空集,则和空间为直和空间。
1.2 线性变换及矩阵
提出了线性映射的概念,意为两个线性空间上的映射。如果为到自身的线性映射,则为线性变换。
常见线性变换:
- 恒等变换
- 零变换
- 伸缩变换
- 平面旋转变换
- 平面反射变换
- 投影变换
- 微分算子(微分算子仅为线性映射,不是线性变换)
- 积分算子
提出了核空间和像空间,核空间的维度为零度或亏,像空间的维度为秩,亏加秩等于原始空间的维度。
线性变换和矩阵之间不仅有一一对应关系且有完全相同的代数结构。
若线性映射是一个双射,则两个线性空间是同构的。
同构的线性空间视为一个,而刻画其特征的是其维数。所以:维数相等等价于线性空间同构。
线性变换的矩阵表示,因为基选择不同而表现为不同的形式,同一个线性变换在不同基下的矩阵表示是相似的。即 A C = B C − > B = C − 1 A C AC = BC -> B = C^{-1}AC AC=BC−>B=C−1AC
相似矩阵反映的是同一线性变换,故相似矩阵间所有的共同性质就是线性变换所特有的,即相似关系是矩阵间的等价关系。在相似等价类中,最简单的形式就是矩阵标准形(Jordan),也即线性变换在某一基下的表现矩阵最简单。
针对一个线性变换,提出了特征值和特征向量的概念,从几何上来看,特征向量在线性变换作用下保持方位不变。
特征值可由 ∣ λ I − A ∣ = 0 |λI-A| = 0 ∣λI−A∣=0求得,特征向量可由 ( λ 1 I − A ) X = 0 (λ_1I-A)X = 0 (λ1I−A)X=0求得。
对于某个特征值,其全部特征向量加上零向量,就构成了一个线性子空间,成为特征子空间。
由相似关系即线性变换的等价关系:相似矩阵有相同的特征值。即线性变换的矩阵的特征多项式与基的选取无关,而直接由线性变换所决定,所以可称为线性变换的特征多项式。
由多项式的一些性质可以推出:(1)特征值之和为矩阵的迹;(2)特征值之积为行列式的值
Schur 引理:任意方阵都相似于一个上三角阵,且主对角元即为全部特征值。
多项式函数的情况下,特征值的函数值等价于线性变换矩阵的函数值的特征值,即 φ ( λ ) = λ ( φ ( A ) ) φ(λ) = λ(φ(A)) φ(λ)=λ(φ(A))
不同特征值的特征向量是线性无关的,因为属于相互正交的线性子空间。
最小零化多项式的概念:零化多项式即以矩阵为实参,函数值为零的多项式。特征多项式必为零化多项式,但是不一定为最小零化多项式,或许还可以去掉一些特征根的重根。
1.3 Jordan 标准形
关于 Jordan 标准形,先讨论一类简单的情况,即可对角化矩阵 —— 单纯矩阵。
单纯矩阵的所有特征向量都是线性无关的,否则线性相关的特征向量将形成 Jordan 块,而无法对角化。
在单纯矩阵中,可以有特征根重根,但是特征值的代数重数必须等于特征向量的几何重数,即重根数必须等于特征向量空间的维数。
特别的,单纯矩阵的最小零化多项式无重根,即可以将特征多项式的所有重根全部约去,所得多项式仍为零化多项式。特殊的,幂等矩阵必可对角化,且特征值为 0 和 1
一般的情况,Jordan 标准形由若干个 Jordan 块构成,每个 Jordan 块的大小为初等因子的次数,矩阵单纯即为初等因子都为一次的。
1.4 欧式空间和酉空间
在线性空间中,向量的基本运算仅为线性运算。向量的长度和夹角等度量概念在线性空间中并没有反映。将度量引入线性空间,得到了欧式空间和酉空间。
即:线性空间 + 内积 = 欧式空间,特殊的,酉空间的内积为共轭内积。
在欧式空间中,定义了向量的长度:向量自身内积开根号。
在欧式空间中,定义了向量的正交(角度):内积为零则正交(垂直)。
两两正交的向量组必线性无关。定义了标准正交基:两两正交且为单位长的向量组。
可以由任意一组正交基构造标准正交基:Gram-Schmidt 正交化方法。
两个线性子空间正交等价于所有的向量都正交,线性子空间之间的正交关系称为正交补。
线性子空间和其正交补的直和为原欧式空间。
正交变换:保持内积不变的线性变换。即保持长度(范数),角度,距离不变。同时有性质 Q T = Q − 1 Q^T = Q^{-1} QT=Q−1
正交变换矩阵有标准正交基构成,且将标准正交基变换为标准正交基。
酉矩阵:酉空间的正交变换。同时有性质 U H = U − 1 U^H = U^{-1} UH=U−1
二、矩阵的分解
2.1 QR 分解
由 Gram-Schmidt 正交化方法,将任一组基底转化为标准正交基,其标准正交基构成正交矩阵 Q,转化过程为上三角矩阵 R,原基底矩阵为满秩方阵。
即任一满秩方阵,存在 QR 分解,其为一个正交矩阵和上三角矩阵的乘积。
若方程 AX = b 不相容,可由 QR 分解求得最小二乘解。即误差范数最小解。
2.2 正规分解及 Schur 分解
Schur 引理加强:任意酉方阵都酉相似于一个上三角阵,且主对角元即为全部特征值。
正规矩阵: A H A = A A H A^HA = AA^H AHA=AAH
正规矩阵是单纯矩阵的加强:单纯矩阵相似于对角阵,若可以酉相似于对角阵,则为正规矩阵。
同时,正规矩阵的所有特征向量构成标准正交基,而单纯矩阵的特征向量只是线性无关,故正规矩阵可以看作是单纯矩阵的进一步加强。
特征向量的线性无关性和正交性才是线性变换矩阵的实质,而特征根的重数只是数值上的巧合。但是特征值互异,特征向量必然线性无关,即必为单阵。
Schur 分解:正规矩阵分解为酉相似矩阵和对角阵的乘积。 A = U H K U A = U^HKU A=UHKU,U 为正交特征向量构成的酉矩阵,K 为特征值构成的对角阵。
2.3 满秩分解
满秩分解:将任一矩阵分解为列满秩矩阵和行满秩矩阵的乘积。 A = F G A = FG A=FG
特殊的,有秩一分解。 A = α β , λ = β α , 且 α 为 相 应 特 征 向 量 A = αβ,λ = βα,且 α 为相应特征向量 A=αβ,λ=βα,且α为相应特征向量。
满秩分解实质上是提取了矩阵的像空间,而像空间的基底不唯一,所以满秩分解也不唯一。
行初等变换可以保持列的线性关系;列初等变换可以保持行的线性关系。
求满秩分解:将矩阵行初等变换为 Hermite 标准形。其相应的行和列构成了满秩分解。
2.4 奇异值分解
奇异值分解,基于 A H A A^HA AHA 和 A A H AA^H AAH 都是酉对称矩阵(Hermte 矩阵),且特征值相同。
- 存在 Aligner,由标准正交基按行排列,其将标准正交基变换为 01 正交基。
- 存在 Hanger,由标准正交基按列排列,其将 01 正交基变换为标准正交基。
- 存在 Stretcher,为对角阵。
- SVD = Hanger X Stretcher X Aligner
奇异值分解: A = V S U H A = VSU^H A=VSUH
求奇异值分解:
- 奇异值为 A H A A^HA AHA 和 A A H AA^H AAH 的特征值的开根号。
- V 为 A A H AA^H AAH 的正交特征向量加上 N ( A H ) N(A^H) N(AH) 的正交基。
- U 为 A H A A^HA AHA 的正交特征向量加上 N ( A ) N(A) N(A) 的正交基。
当然,由于算法的冗余性,其可以简化,有一个求奇异值分解的基本步骤:略。
极分解: A = G U A = GU A=GU,其中 G 为酉对称矩阵(Hermte 矩阵),U 为酉矩阵。极分解可由 SVD 分解求得。
若方程 AX = b 不相容,可由 SVD 分解求得极小范数最小二乘解。其原理为 SVD 分解将原无解方程投影到了一个有解的空间。
2.5 单纯矩阵的谱分解
单纯矩阵的谱分解:可将单纯矩阵进一步分解为若干幂等阵和特征值的乘积和,相应的,互异幂等阵的乘积为零,全部幂等阵的和为单位阵。 A = ∑ i = 1 k λ i G i A = \sum^k_{i=1}λ_iG_i A=∑i=1kλiGi
使用构造性的方法求得单纯矩阵的谱分解:略。
谱分解的意义:矩阵的函数可转化为特征值的函数和谱阵的乘积和,即 f ( A ) = ∑ i = 1 k f ( λ i ) G i f(A) = \sum^k_{i=1}f(λ_i)G_i f(A)=∑i=1kf(λi)Gi
幂等阵的几何意义:幂等阵和投影阵一一对应。因为一次投影变换之后,继续投影变换结果不变。
特殊的,幂等酉对称阵的几何意义是正交投影变换。即投影不正交,等价于幂等阵不对称。
由正规矩阵是单纯矩阵的加强,故正规矩阵的谱分解过程可以进一步简化。
三、矩阵的广义逆
3.1 广义逆矩阵
我们希望将逆矩阵的概念推广到非奇异矩阵,而当矩阵退化为奇异矩阵时,其广义逆矩阵也退化为通常的逆矩阵。
广义逆矩阵需要满足一下的全部或部分性质:
- A X A = A AXA = A AXA=A
- X A X = X XAX = X XAX=X
- ( A X ) H = A X (AX)^H = AX (AX)H=AX
- ( X A ) H = X A (XA)^H = XA (XA)H=XA
共有15种广义逆,在这里,主要研究 A{1},A{1,3},A{1,4},A{1,2,3,4}
3.2 广义逆矩阵 A + A^+ A+
A + = A 1 , 2 , 3 , 4 A^+ = A{1,2,3,4} A+=A1,2,3,4 存在且唯一。
可由 SVD 分解求得 A + A^+ A+, A = V S U H , A + = U S − 1 V H A = VSU^H,A^+ = US^{-1}V^H A=VSUH,A+=US−1VH
A + A^+ A+ 有很多和 A − A^- A− 类似的性质。
3.3 A + A^+ A+ 的几种基本求法
- 满秩分解求
A
+
A^+
A+
- 特殊的,列满秩时, A + = ( A H A ) − 1 A H A^+ = (A^HA)^{-1}A^H A+=(AHA)−1AH
- 特殊的,行满秩时, A + = A H ( A A H ) − 1 A^+ = A^H(AA^H)^{-1} A+=AH(AAH)−1
- 奇异值分解求
A
+
A^+
A+
- 特殊的,可以只分解出酉高矩阵 U 1 U_1 U1,对求解过程进行简化, A + = U 1 S − 1 U 1 H A H A^+ = U_1S^{-1}U_1^HA^H A+=U1S−1U1HAH
- 谱分解求
A
+
A^+
A+
- Sylvester 公式,不失为一种求解方法,但是计算量较大
3.4 广义逆与线性方程组
- 线性方程组相容,可求:
- 通解
- 极小范数解
- 线性方程组不相容,可求:
- 最小二乘解
- 极小范数最小二乘解
广义逆与线性方程组:
- 相容线性方程组的通解,A{1}
- x = A ( 1 ) b + ( I − A ( 1 ) A ) y , y ∈ C n x = A^{(1)}b + (I-A^{(1)}A)y, y ∈ C^n x=A(1)b+(I−A(1)A)y,y∈Cn
- 相容线性方程组的极小范数解,A{1,4}
- x = A ( 1 , 4 ) b x = A^{(1,4)}b x=A(1,4)b
- 不相容方程组的最小二乘解,A{1,3}
- x = A ( 1 , 3 ) b x = A^{(1,3)}b x=A(1,3)b
- 不相容方程组的极小范数最小二乘解,A{1,2,3,4}
- x = A ( 1 , 2 , 3 , 4 ) b x = A^{(1,2,3,4)}b x=A(1,2,3,4)b
- | 相容( A A + b = b AA^+b = b AA+b=b) | 不相容( A A + b ≠ b AA^+b ≠ b AA+b=b) |
---|---|---|
A 列满秩 | 唯一解 | 唯一的最小二乘解 |
A 非列满秩 | 唯一的极小范数解 | 唯一的极小范数最小二乘解 |
四、矩阵分析
4.1 向量与矩阵的范数
范数理论,对于研究算法的收敛性,稳定性,以及误差分析都是一个不可缺少的工具。
提出了向量范数的概念,需要满足范数的三个性质:
- 正定性;
- 齐次性
- 三角不等式
在有限维线性空间中的任何两种范数都是等价的,有限维线性空间中的按范数收敛也是等价的,且按范数收敛当且仅当按坐标收敛。
提出了矩阵的向量范数的概念,同样需要满足范数的三个性质。如果同时满足相容性,则成为矩阵的矩阵范数。
向量范数和矩阵范数也可以满足相容性。对一个矩阵范数,必存在与之相容的向量范数。对一个向量范数,可以构造与之相容的矩阵范数,此时称为矩阵的算子范数。
矩阵的特征值的最大模为谱半径。
谱半径与范数的关系:
- 任一种矩阵范数都大于其谱半径
- 存在小范数,小于其谱半径加微小扰动(范数可以无限逼近谱半径)
4.2 特征值估计
有时只需要估计特征值所在的范围。
由矩阵范数可以将特征值限制在一个圆盘内。可以使用盖尔圆盘进一步缩小其范围。
每个孤立的盖尔圆盘内有一个特征值,k 个连通盖尔圆盘中有 k 个特征值。孤立圆不是二重圆、三重圆。
实系数多项式的虚根必为共轭根。所以实矩阵的孤立圆中恰有一个实根,否则虚根将会共轭出现。
估计特征值,往往希望得到更多的孤立盖尔圆。这可以通过不改变矩阵特征值的矩阵变换来实现,作对角阵相似, D = d i a g , B = D A D − 1 D=diag,B = DAD^{-1} D=diag,B=DAD−1:
- d i < 1 d_i < 1 di<1,其余为 1,则第 i 个盖尔圆缩小,其余放大。
- d i > 1 d_i > 1 di>1,其余为 1,则第 i 个盖尔圆放大,其余缩小。
4.3 矩阵级数
提出了矩阵级数的概念。
如果加绝对值仍然收敛,则称其为绝对收敛。
4.4 矩阵函数及其计算
实际中,需要求解带参数的矩阵函数。以下是一些矩阵指数和矩阵三角函数的性质:
- e i A = c o s A + s i n A e^{iA} = cosA + sinA eiA=cosA+sinA
- c o s A = 1 2 ( e i A + e − i A ) cosA = \frac{1}{2}(e^{iA} + e^{-iA}) cosA=21(eiA+e−iA)
- s i n A = 1 2 i ( e i A − e − i A ) sinA = \frac{1}{2i}(e^{iA} - e^{-iA}) sinA=2i1(eiA−e−iA)
- s i n 2 A + c o s 2 A = I sin^2A + cos^2A = I sin2A+cos2A=I
矩阵函数的计算:
- 对于单纯矩阵,即可对角化,矩阵函数可以分解为特征值的函数: f ( A ) = P ( d i a g f ( λ 1 ) , … … , f ( λ n ) ) P − 1 f(A) = P(diag{f(λ_1),……,f(λ_n)})P^{-1} f(A)=P(diagf(λ1),……,f(λn))P−1
- 对于非单纯矩阵,其形式为 Jordan 形式。
4.5 矩阵函数的应用
我们使用矩阵来表示线性微分方程组,而矩阵函数又使线性微分方程的求解问题得到简化。
- 求解一阶线性常系数微分方程组:代入公式 x ( t ) = e A ( t − t 0 ) c x(t) = e^{A(t-t_0)}c x(t)=eA(t−t0)c
- 求解n阶线性常系数微分方程
- 将n阶线性常系数微分方程转化为一阶线性常系数微分方程组(每一阶导数,转化为一个常系数微分方程)
- 代入公式求解
解此类方程组的关键在于计算矩阵函数 e A t e^{At} eAt,计算未必简单,但不失为一种途径。
五、矩阵的直积
5.1 直积的定义与性质
定义了矩阵的直积。
直积不满足交换律,但是保了矩阵的很多性质:略
5.2 直积与特征值
在矩阵的直积运算下,特征值的映射有很多良好的性质:略
5.3 矩阵的拉直
矩阵按行拉直,得到列向量。在神经网络的 flatten 中经常用到。
拉直是一个线性空间间的线性映射的双射,是一个同构。
拉直和直积一起,也有很多良好的性质:略
5.4 直积与矩阵方程
直积和拉直也可以应用到矩阵方程中:略