当我学矩阵论时,我学到了什么?

当我学矩阵论时,我学到了什么?

learning why, thinking what, then forgetting how.

随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

教材为:《矩阵论教程 第2版(张绍飞、赵迪)》


一、线性代数引论

1.1 线性空间

引出加群数域的概念。

加群和数域共同组成线性空间向量空间。加群中为向量,数域中为标量

某加群在某数域下构成线性空间。

提出了零空间作为方程组 AX=0 的解空间的概念。

提出了线性无关维数的概念。

提出了基底和在其下表示的坐标的概念。

空间维数是和数域相关的。例如,C 是 C 上的一维空间,是 R 上的二维空间,是 Q 上的无限维空间。

提出了用于基底变换的过渡矩阵变换矩阵的概念。基变换矩阵确定了坐标变换公式。

提出了子空间的概念。

和空间的维度 = 两个子空间的维度和 - 交空间的维度。

并空间不是子空间。

如果交空间为空集,则和空间为直和空间

1.2 线性变换及矩阵

提出了线性映射的概念,意为两个线性空间上的映射。如果为到自身的线性映射,则为线性变换

常见线性变换:

  1. 恒等变换
  2. 零变换
  3. 伸缩变换
  4. 平面旋转变换
  5. 平面反射变换
  6. 投影变换
  7. 微分算子(微分算子仅为线性映射,不是线性变换)
  8. 积分算子

提出了核空间像空间,核空间的维度为零度,像空间的维度为亏加秩等于原始空间的维度

线性变换和矩阵之间不仅有一一对应关系且有完全相同的代数结构。

若线性映射是一个双射,则两个线性空间是同构的。

同构的线性空间视为一个,而刻画其特征的是其维数。所以:维数相等等价于线性空间同构

线性变换的矩阵表示,因为选择不同而表现为不同的形式,同一个线性变换在不同基下的矩阵表示是相似的。即 A C = B C − > B = C − 1 A C AC = BC -> B = C^{-1}AC AC=BC>B=C1AC

相似矩阵反映的是同一线性变换,故相似矩阵间所有的共同性质就是线性变换所特有的,即相似关系是矩阵间的等价关系。在相似等价类中,最简单的形式就是矩阵标准形(Jordan),也即线性变换在某一基下的表现矩阵最简单。

针对一个线性变换,提出了特征值特征向量的概念,从几何上来看,特征向量在线性变换作用下保持方位不变

特征值可由 ∣ λ I − A ∣ = 0 |λI-A| = 0 λIA=0求得,特征向量可由 ( λ 1 I − A ) X = 0 (λ_1I-A)X = 0 (λ1IA)X=0求得。

对于某个特征值,其全部特征向量加上零向量,就构成了一个线性子空间,成为特征子空间

由相似关系即线性变换的等价关系:相似矩阵有相同的特征值。即线性变换的矩阵的特征多项式与基的选取无关,而直接由线性变换所决定,所以可称为线性变换的特征多项式。

由多项式的一些性质可以推出:(1)特征值之和为矩阵的迹;(2)特征值之积为行列式的值

Schur 引理:任意方阵都相似于一个上三角阵,且主对角元即为全部特征值

多项式函数的情况下,特征值的函数值等价于线性变换矩阵的函数值的特征值,即 φ ( λ ) = λ ( φ ( A ) ) φ(λ) = λ(φ(A)) φ(λ)=λ(φ(A))

不同特征值的特征向量是线性无关的,因为属于相互正交的线性子空间。

最小零化多项式的概念:零化多项式即以矩阵为实参,函数值为零的多项式。特征多项式必为零化多项式,但是不一定为最小零化多项式,或许还可以去掉一些特征根的重根。

1.3 Jordan 标准形

关于 Jordan 标准形,先讨论一类简单的情况,即可对角化矩阵 —— 单纯矩阵

单纯矩阵的所有特征向量都是线性无关的,否则线性相关的特征向量将形成 Jordan 块,而无法对角化。

在单纯矩阵中,可以有特征根重根,但是特征值的代数重数必须等于特征向量的几何重数,即重根数必须等于特征向量空间的维数。

特别的,单纯矩阵的最小零化多项式无重根,即可以将特征多项式的所有重根全部约去,所得多项式仍为零化多项式。特殊的,幂等矩阵必可对角化,且特征值为 0 和 1

一般的情况,Jordan 标准形由若干个 Jordan 块构成,每个 Jordan 块的大小为初等因子的次数,矩阵单纯即为初等因子都为一次的。

1.4 欧式空间和酉空间

在线性空间中,向量的基本运算仅为线性运算。向量的长度和夹角等度量概念在线性空间中并没有反映。将度量引入线性空间,得到了欧式空间酉空间

即:线性空间 + 内积 = 欧式空间,特殊的,酉空间的内积为共轭内积

在欧式空间中,定义了向量的长度:向量自身内积开根号。

在欧式空间中,定义了向量的正交(角度):内积为零则正交(垂直)。

两两正交的向量组必线性无关。定义了标准正交基:两两正交且为单位长的向量组。

可以由任意一组正交基构造标准正交基:Gram-Schmidt 正交化方法

两个线性子空间正交等价于所有的向量都正交,线性子空间之间的正交关系称为正交补

线性子空间和其正交补的直和为原欧式空间

正交变换:保持内积不变的线性变换。即保持长度(范数),角度,距离不变。同时有性质 Q T = Q − 1 Q^T = Q^{-1} QT=Q1

正交变换矩阵有标准正交基构成,且将标准正交基变换为标准正交基。

酉矩阵:酉空间的正交变换。同时有性质 U H = U − 1 U^H = U^{-1} UH=U1


二、矩阵的分解

2.1 QR 分解

由 Gram-Schmidt 正交化方法,将任一组基底转化为标准正交基,其标准正交基构成正交矩阵 Q,转化过程为上三角矩阵 R,原基底矩阵为满秩方阵。

任一满秩方阵,存在 QR 分解,其为一个正交矩阵和上三角矩阵的乘积

若方程 AX = b 不相容,可由 QR 分解求得最小二乘解。即误差范数最小解

2.2 正规分解及 Schur 分解

Schur 引理加强:任意酉方阵都酉相似于一个上三角阵,且主对角元即为全部特征值

正规矩阵: A H A = A A H A^HA = AA^H AHA=AAH

正规矩阵是单纯矩阵的加强:单纯矩阵相似于对角阵,若可以酉相似于对角阵,则为正规矩阵。

同时,正规矩阵的所有特征向量构成标准正交基,而单纯矩阵的特征向量只是线性无关,故正规矩阵可以看作是单纯矩阵的进一步加强。

特征向量的线性无关性和正交性才是线性变换矩阵的实质,而特征根的重数只是数值上的巧合。但是特征值互异,特征向量必然线性无关,即必为单阵。

Schur 分解:正规矩阵分解为酉相似矩阵和对角阵的乘积。 A = U H K U A = U^HKU A=UHKU,U 为正交特征向量构成的酉矩阵,K 为特征值构成的对角阵。

2.3 满秩分解

满秩分解:将任一矩阵分解为列满秩矩阵和行满秩矩阵的乘积。 A = F G A = FG A=FG

特殊的,有秩一分解。 A = α β , λ = β α , 且 α 为 相 应 特 征 向 量 A = αβ,λ = βα,且 α 为相应特征向量 A=αβλ=βαα

满秩分解实质上是提取了矩阵的像空间,而像空间的基底不唯一,所以满秩分解也不唯一。

行初等变换可以保持列的线性关系;列初等变换可以保持行的线性关系。

求满秩分解:将矩阵行初等变换为 Hermite 标准形。其相应的行和列构成了满秩分解。

2.4 奇异值分解

奇异值分解,基于 A H A A^HA AHA A A H AA^H AAH 都是酉对称矩阵(Hermte 矩阵),且特征值相同。

  • 存在 Aligner,由标准正交基按行排列,其将标准正交基变换为 01 正交基。
  • 存在 Hanger,由标准正交基按列排列,其将 01 正交基变换为标准正交基。
  • 存在 Stretcher,为对角阵。
  • SVD = Hanger X Stretcher X Aligner

奇异值分解 A = V S U H A = VSU^H A=VSUH

求奇异值分解:

  1. 奇异值为 A H A A^HA AHA A A H AA^H AAH 的特征值的开根号。
  2. V 为 A A H AA^H AAH 的正交特征向量加上 N ( A H ) N(A^H) N(AH) 的正交基。
  3. U 为 A H A A^HA AHA 的正交特征向量加上 N ( A ) N(A) N(A) 的正交基。

当然,由于算法的冗余性,其可以简化,有一个求奇异值分解的基本步骤:略。

极分解 A = G U A = GU A=GU,其中 G 为酉对称矩阵(Hermte 矩阵),U 为酉矩阵。极分解可由 SVD 分解求得。

若方程 AX = b 不相容,可由 SVD 分解求得极小范数最小二乘解。其原理为 SVD 分解将原无解方程投影到了一个有解的空间。

2.5 单纯矩阵的谱分解

单纯矩阵的谱分解:可将单纯矩阵进一步分解为若干幂等阵和特征值的乘积和,相应的,互异幂等阵的乘积为零,全部幂等阵的和为单位阵 A = ∑ i = 1 k λ i G i A = \sum^k_{i=1}λ_iG_i A=i=1kλiGi

使用构造性的方法求得单纯矩阵的谱分解:略。

谱分解的意义:矩阵的函数可转化为特征值的函数和谱阵的乘积和,即 f ( A ) = ∑ i = 1 k f ( λ i ) G i f(A) = \sum^k_{i=1}f(λ_i)G_i f(A)=i=1kf(λi)Gi

幂等阵的几何意义:幂等阵和投影阵一一对应。因为一次投影变换之后,继续投影变换结果不变。

特殊的,幂等酉对称阵的几何意义是正交投影变换。即投影不正交,等价于幂等阵不对称。

由正规矩阵是单纯矩阵的加强,故正规矩阵的谱分解过程可以进一步简化


三、矩阵的广义逆

3.1 广义逆矩阵

我们希望将逆矩阵的概念推广到非奇异矩阵,而当矩阵退化为奇异矩阵时,其广义逆矩阵也退化为通常的逆矩阵。

广义逆矩阵需要满足一下的全部或部分性质:

  1. A X A = A AXA = A AXA=A
  2. X A X = X XAX = X XAX=X
  3. ( A X ) H = A X (AX)^H = AX (AX)H=AX
  4. ( X A ) H = X A (XA)^H = XA (XA)H=XA

共有15种广义逆,在这里,主要研究 A{1},A{1,3},A{1,4},A{1,2,3,4}

3.2 广义逆矩阵 A + A^+ A+

A + = A 1 , 2 , 3 , 4 A^+ = A{1,2,3,4} A+=A1,2,3,4 存在且唯一

可由 SVD 分解求得 A + A^+ A+ A = V S U H , A + = U S − 1 V H A = VSU^H,A^+ = US^{-1}V^H A=VSUHA+=US1VH

A + A^+ A+ 有很多和 A − A^- A 类似的性质。

3.3 A + A^+ A+ 的几种基本求法

  1. 满秩分解 A + A^+ A+
    • 特殊的,列满秩时, A + = ( A H A ) − 1 A H A^+ = (A^HA)^{-1}A^H A+=(AHA)1AH
    • 特殊的,行满秩时, A + = A H ( A A H ) − 1 A^+ = A^H(AA^H)^{-1} A+=AH(AAH)1
  2. 奇异值分解 A + A^+ A+
    • 特殊的,可以只分解出酉高矩阵 U 1 U_1 U1,对求解过程进行简化, A + = U 1 S − 1 U 1 H A H A^+ = U_1S^{-1}U_1^HA^H A+=U1S1U1HAH
  3. 谱分解 A + A^+ A+
    • Sylvester 公式,不失为一种求解方法,但是计算量较大

3.4 广义逆与线性方程组

  • 线性方程组相容,可求:
    • 通解
    • 极小范数解
  • 线性方程组不相容,可求:
    • 最小二乘解
    • 极小范数最小二乘解

广义逆与线性方程组:

  1. 相容线性方程组的通解,A{1}
    • x = A ( 1 ) b + ( I − A ( 1 ) A ) y , y ∈ C n x = A^{(1)}b + (I-A^{(1)}A)y, y ∈ C^n x=A(1)b+(IA(1)A)y,yCn
  2. 相容线性方程组的极小范数解,A{1,4}
    • x = A ( 1 , 4 ) b x = A^{(1,4)}b x=A(1,4)b
  3. 不相容方程组的最小二乘解,A{1,3}
    • x = A ( 1 , 3 ) b x = A^{(1,3)}b x=A(1,3)b
  4. 不相容方程组的极小范数最小二乘解,A{1,2,3,4}
    • x = A ( 1 , 2 , 3 , 4 ) b x = A^{(1,2,3,4)}b x=A(1,2,3,4)b
-相容( A A + b = b AA^+b = b AA+b=b不相容( A A + b ≠ b AA^+b ≠ b AA+b=b
A 列满秩唯一解唯一的最小二乘解
A 非列满秩唯一的极小范数解唯一的极小范数最小二乘解

四、矩阵分析

4.1 向量与矩阵的范数

范数理论,对于研究算法的收敛性,稳定性,以及误差分析都是一个不可缺少的工具。

提出了向量范数的概念,需要满足范数的三个性质:

  1. 正定性;
  2. 齐次性
  3. 三角不等式

在有限维线性空间中的任何两种范数都是等价的,有限维线性空间中的按范数收敛也是等价的,且按范数收敛当且仅当按坐标收敛

提出了矩阵的向量范数的概念,同样需要满足范数的三个性质。如果同时满足相容性,则成为矩阵的矩阵范数

向量范数和矩阵范数也可以满足相容性。对一个矩阵范数,必存在与之相容的向量范数。对一个向量范数,可以构造与之相容的矩阵范数,此时称为矩阵的算子范数

矩阵的特征值的最大模为谱半径

谱半径与范数的关系:

  1. 任一种矩阵范数都大于其谱半径
  2. 存在小范数,小于其谱半径加微小扰动(范数可以无限逼近谱半径

4.2 特征值估计

有时只需要估计特征值所在的范围。

由矩阵范数可以将特征值限制在一个圆盘内。可以使用盖尔圆盘进一步缩小其范围。

每个孤立的盖尔圆盘内有一个特征值,k 个连通盖尔圆盘中有 k 个特征值。孤立圆不是二重圆、三重圆。

实系数多项式的虚根必为共轭根。所以实矩阵的孤立圆中恰有一个实根,否则虚根将会共轭出现。

估计特征值,往往希望得到更多的孤立盖尔圆。这可以通过不改变矩阵特征值的矩阵变换来实现,作对角阵相似, D = d i a g , B = D A D − 1 D=diag,B = DAD^{-1} D=diagB=DAD1

  1. d i < 1 d_i < 1 di<1,其余为 1,则第 i 个盖尔圆缩小,其余放大。
  2. d i > 1 d_i > 1 di>1,其余为 1,则第 i 个盖尔圆放大,其余缩小。

4.3 矩阵级数

提出了矩阵级数的概念。

如果加绝对值仍然收敛,则称其为绝对收敛

4.4 矩阵函数及其计算

实际中,需要求解带参数的矩阵函数。以下是一些矩阵指数和矩阵三角函数的性质:

  1. e i A = c o s A + s i n A e^{iA} = cosA + sinA eiA=cosA+sinA
  2. c o s A = 1 2 ( e i A + e − i A ) cosA = \frac{1}{2}(e^{iA} + e^{-iA}) cosA=21(eiA+eiA)
  3. s i n A = 1 2 i ( e i A − e − i A ) sinA = \frac{1}{2i}(e^{iA} - e^{-iA}) sinA=2i1(eiAeiA)
  4. s i n 2 A + c o s 2 A = I sin^2A + cos^2A = I sin2A+cos2A=I

矩阵函数的计算:

  1. 对于单纯矩阵,即可对角化,矩阵函数可以分解为特征值的函数: f ( A ) = P ( d i a g f ( λ 1 ) , … … , f ( λ n ) ) P − 1 f(A) = P(diag{f(λ_1),……,f(λ_n)})P^{-1} f(A)=P(diagf(λ1),,f(λn))P1
  2. 对于非单纯矩阵,其形式为 Jordan 形式。

4.5 矩阵函数的应用

我们使用矩阵来表示线性微分方程组,而矩阵函数又使线性微分方程的求解问题得到简化。

  1. 求解一阶线性常系数微分方程组:代入公式 x ( t ) = e A ( t − t 0 ) c x(t) = e^{A(t-t_0)}c x(t)=eA(tt0)c
  2. 求解n阶线性常系数微分方程
    • 将n阶线性常系数微分方程转化为一阶线性常系数微分方程组(每一阶导数,转化为一个常系数微分方程)
    • 代入公式求解

解此类方程组的关键在于计算矩阵函数 e A t e^{At} eAt,计算未必简单,但不失为一种途径。


五、矩阵的直积

5.1 直积的定义与性质

定义了矩阵的直积

直积不满足交换律,但是保了矩阵的很多性质:略

5.2 直积与特征值

在矩阵的直积运算下,特征值的映射有很多良好的性质:略

5.3 矩阵的拉直

矩阵按行拉直,得到列向量。在神经网络的 flatten 中经常用到。

拉直是一个线性空间间的线性映射的双射,是一个同构

拉直和直积一起,也有很多良好的性质:略

5.4 直积与矩阵方程

直积和拉直也可以应用到矩阵方程中:略


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值