矩阵分析系统学习笔记
本系列所有文章来自东北大学韩志涛老师的矩阵分析课程学习笔记,系列如下:
矩阵分析 (一) 线性空间和线性变换
矩阵分析 (二) 内积空间
矩阵分析 (三) 矩阵的标准形
矩阵分析 (四)向量和矩阵的范数
矩阵分析 (五) 矩阵的分解
矩阵分析 (六) 矩阵的函数
矩阵分析 (七) 矩阵特征值的估计
矩阵分析 (八) 矩阵的直积
我们曾在线性代数里学过向量空间,它是由向量做成的集合。在这个集合里向量可以相加,向量可以乘以一个倍数,由此我们可以讨论向量的线性组合、向量的线性相关等概念。
线性空间的概念
线性空间
-
定义1.1:数域:一个对和、差、积、商运算都封闭的复数的非空集合 P P P称为数域。
-
定义1.2:设 V V V是一个非空的集合,如果在 V V V中定义二元运算(加法),
- 即 V V V中任意两个元素 α \alpha α, β \beta β经过这个运算结果仍是 V V V中的一个元素,这个元素称为 α \alpha α与 β \beta β的和,记 α + β \alpha + \beta α+β。
- 在数域 P P P与 V V V之间定义一个运算叫作数量乘法,即对于 P P P中的任意数 k k k与 V V V中的任意一个元素 α \alpha α,经过这一运算的结果仍然是 V V V中的一个元素,称为 k k k与 α \alpha α的数量乘积,记 k α k\alpha kα。
如果上述运算满足以下规则,则称 V V V为数域 P P P上的线性空间。 V V V中的元素也称为向量。
- 对任意的 α \alpha α, β \beta β ∈ \in ∈ V V V,则称 V V V为数域 P P P上的线性空间, V V V中的元素也称为向量。
- 对任意的 α \alpha α, β \beta β, γ \gamma γ, ∈ \in ∈ V V V, ( α + β ) + γ = α + ( β + γ ) (\alpha + \beta) + \gamma = \alpha + (\beta + \gamma) (α+β)+γ=α+(β+γ);
- 在 V V V中存在一个零元素,记作 0 0 0,对任意的 α + 0 = α \alpha + 0 = \alpha α+0=α;
- 对任意的 α ∈ V \alpha \in V α∈V,都有 α \alpha α的负元素,记作 − α -\alpha −α;
- 对任意的 α ∈ V \alpha \in V α∈V,有 1 ⋅ α = α 1 \cdot \alpha = \alpha 1⋅α=α;
- 对任意的 α ∈ V \alpha \in V α∈V, k , l ∈ P k,l \in P k,l∈P, k ( l α ) = ( k l ) α k(l \alpha) = (kl)\alpha k(lα)=(kl)α;
- 对任意的 α ∈ V \alpha \in V α∈V, k , l ∈ P k,l \in P k,l∈P, ( k + l ) α = k α + l α (k+l)\alpha = k \alpha + l\alpha (k+l)α=kα+lα
- 对任意的 k ∈ P k \in P k∈P, α , β ∈ V \alpha,\beta \in V α,β∈V, k ( α + β ) = k α + k β k(\alpha+\beta) = k \alpha + k\beta k(α+β)=kα+kβ
线性空间的例子,基底、坐标
-
定义1.3:(线性相关)在 V V V中有一组元素 α 1 \alpha_{1} α1, α 2 \alpha_{2} α2, ⋯ \cdots ⋯, α n \alpha_{n} αn线性无关,且其他元素都可以被它们线性表达,则称 α 1 \alpha_{1} α1, α 2 \alpha_{2} α2, ⋯ \cdots ⋯, α n \alpha_{n} αn为 V V V的一组基, n n n为空间 V V V的维数,记作 d i m V = n dimV=n dimV=n,而表达式的系数是这个元素的坐标。
-
例题: 求 P 3 [ t ] P_{3}[t] P3[t]中多项式 1 + t + t 2 1+t+t^{2} 1+t+t2在基底1, t − 1 t-1 t−1, ( t − 2 ) ( t − 1 ) (t-2)(t-1) (t−2)(t−1)下的坐标:
解:
1 + t + t 2 = k 1 × 1 + k 2 × ( t − 1 ) + k 3 ( t − 2 ) ( t − 1 ) 1+t+t^{2} = k_{1} \times 1+k_{2} \times (t-1) + k_{3}(t-2)(t-1) 1+t+t2=k1×1+k2×(t−1)+k3(t−2)(t−1)
令其对应项相等即可。
基变换与坐标变换
一般来说,一个元素在不同的基底下有不同的坐标,它们的坐标有什么关系呢?
设
V
V
V是
P
P
P上的
n
n
n维线性空间,
α
1
\alpha_{1}
α1,
α
2
\alpha_{2}
α2,
⋯
\cdots
⋯,
α
n
\alpha_{n}
αn和
β
1
\beta_{1}
β1,
β
2
\beta_{2}
β2,
⋯
\cdots
⋯,
β
n
\beta_{n}
βn是
V
V
V的两个不同的基底,因为
α
1
\alpha_{1}
α1,
α
2
\alpha_{2}
α2,
⋯
\cdots
⋯,
α
n
\alpha_{n}
αn是基底,所以
β
1
\beta_{1}
β1,
β
2
\beta_{2}
β2,
⋯
\cdots
⋯,
β
n
\beta_{n}
βn可以被这个基底线性表达,这两个基底的关系是:
(
β
1
,
β
2
,
⋯
,
β
n
)
(\beta_{1},\beta_{2},\cdots,\beta_{n})
(β1,β2,⋯,βn)
=
(
α
1
,
α
2
,
⋯
,
α
n
)
A
=(\alpha_{1},\alpha_{2},\cdots,\alpha_{n})A
=(α1,α2,⋯,αn)A
利用过渡矩阵就可以得到这个元素的两个坐标之间的关系:
α
=
(
β
1
,
β
2
,
⋯
,
β
n
)
(
l
1
l
2
⋮
l
n
)
\alpha=\left(\beta_{1}, \beta_{2}, \cdots, \beta_{n}\right)\left(\begin{array}{c}{l_{1}} \\ {l_{2}} \\ {\vdots} \\ {l_{n}}\end{array}\right)
α=(β1,β2,⋯,βn)
l1l2⋮ln
=
(
α
1
,
α
2
,
⋯
,
α
n
)
A
(
l
1
l
2
⋮
l
n
)
=\left(\alpha_{1}, \alpha_{2}, \cdots, \alpha_{n}\right) A\left(\begin{array}{c}{l_{1}} \\ {l_{2}} \\ {\vdots} \\ {l_{n}}\end{array}\right)
=(α1,α2,⋯,αn)A
l1l2⋮ln
=
(
α
1
,
α
2
,
⋯
,
α
n
)
(
k
1
k
2
⋮
k
n
)
=\left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{n}\right) \left(\begin{array}{c}{k_{1}} \\ {k_{2}} \\ {\vdots} \\ {k_{n}}\end{array} \right)
=(α1,α2,⋯,αn)
k1k2⋮kn
( k 1 k 2 ⋮ k 2 ) = A ( l 1 l 2 ⋮ l n ) \left(\begin{array}{c}{k_{1}} \\ {k_{2}} \\ {\vdots} \\ {k_{2}}\end{array} \right)=A\left(\begin{array}{c}{l_{1}} \\ {l_{2}} \\ {\vdots} \\ {l_{n}}\end{array} \right) k1k2⋮k2 =A l1l2⋮ln
子空间和维数定理
子空间及生成方式
我们知道三维线性空间 R 3 R^{3} R3的二维平面 R 2 R^{2} R2也是一个线性空间,这种类型的空间叫作子空间。
-
定义1.5:设 V V V是数域 P P P上的线性空间, W W W是 V V V的非空子集,如果 W W W对于线性空间 V V V所定义的加法运算及数乘运算也构成 P P P上的线性空间,则称 W W W为 V V V的线性子空间,简称子空间。
-
定理1.1:设 W W W是 P P P上的线性空间 V V V的非空子集,则 W W W是 V V V的线性子空间的充要条件是:
1):若 α , β ∈ W \alpha,\beta \in W α,β∈W,则 α + β ∈ W \alpha + \beta \in W α+β∈W;
2):若 α ∈ W \alpha \in W α∈W, k ∈ P k \in P k∈P,则 k α ∈ W k\alpha \in W kα∈W。
{ 0 } \{0\} {0}及 V V V本身也是 V V V的子空间,这两个子空间是 V V V的平凡子空间。 -
设 α 1 \alpha_{1} α1, α 2 \alpha_{2} α2, ⋯ \cdots ⋯, α m \alpha_{m} αm是 V V V上的 m m m个元素,由这 m m m个元素的任意组合构成的集合 { k 1 α 1 + ⋯ + k m α m } \{k_{1}\alpha_{1}+\cdots+k_{m}\alpha_{m}\} {k1α1+⋯+kmαm}对 V V V中的加法及数乘封闭,因而这个子集是 V V V中的子空间。记作:
L ( α 1 , α 2 , ⋯ , α m ) L(\alpha_{1},\alpha_{2},\cdots,\alpha_{m}) L(α1,α2,⋯,αm)
- 用原有的子空间生成新的子空间的方法:
1):设 V 1 V_{1} V1, V 2 V_{2} V2是 V V V的子空间,则 V 1 ∩ V 2 V_{1} \cap V_{2} V1∩V2是 V V V的子空间,叫做两个子空间的交子空间。
2):设 V 1 V_{1} V1, V 2 V_{2} V2是 V V V的子空间, V 1 + V 2 V_{1}+V_{2} V1+V2也是 V V V的子空间,这里:
V 1 + V 2 = { α 1 + α 2 ∣ α 1 ∈ V 1 , α 2 ∈ V 2 } V_{1}+V_{2}=\{\alpha_{1}+\alpha_{2}|\alpha_{1} \in V_{1},\alpha_{2} \in V_{2}\} V1+V2={α1+α2∣α1∈V1,α2∈V2}
这个子空间叫做 V 1 V_{1} V1和 V 2 V_{2} V2的和子空间。
维数定理
由两个子空间
V
1
V_{1}
V1,
V
2
V_{2}
V2生成的子空间的维数
d
i
m
(
V
1
+
V
2
)
dim(V_{1}+V_{2})
dim(V1+V2),
d
i
m
(
V
1
∩
V
2
)
dim(V_{1} \cap V_{2})
dim(V1∩V2)与原来的子空间的维数之间有一个关系,称之为维数定理,即:
d
i
m
V
1
+
d
i
m
V
2
dimV_{1}+dimV_{2}
dimV1+dimV2
=
d
i
m
(
V
1
+
V
2
)
+
d
i
m
(
V
1
∩
V
2
)
=dim(V_{1}+V_{2})+dim(V_{1} \cap V_{2})
=dim(V1+V2)+dim(V1∩V2)
- 定理1.2: V 1 + V 2 V_{1}+V_{2} V1+V2是直和的充要条件是 V 1 ∩ V 2 = { 0 } V_{1} \cap V_{2} = \{0\} V1∩V2={0}。
这个几个概念比较重要,需要记住。
线性空间中的线性变换
- 定义1.6:设
T
T
T是
V
V
V上的变换,如果对于任意的
α
\alpha
α,
β
∈
V
\beta \in V
β∈V及
k
∈
P
k \in P
k∈P都有:
T ( α + β ) = T α + T β T(\alpha + \beta)=T\alpha + T\beta T(α+β)=Tα+Tβ
T ( k α ) = k T α T(k\alpha)=kT\alpha T(kα)=kTα
则称 T T T为 V V V上的线性变换。线性变换保持 V V V上的运算。
上面这个线性变换的公式需要记住,经常会考这个改变以及以下变种。比如下文的线性变换的矩阵的公式:
由:
( ε 1 , ε 2 , ε 3 ) = ( e 1 , e 2 , e 3 ) C (\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) = (e_{1},e_{2},e_{3})C (ε1,ε2,ε3)=(e1,e2,e3)C
能得到:
T ( ε 1 , ε 2 , ε 3 ) = T ( e 1 , e 2 , e 3 ) C T(\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) = T(e_{1},e_{2},e_{3})C T(ε1,ε2,ε3)=T(e1,e2,e3)C
这时如果知道:
T ( ε 1 , ε 2 , ε 3 ) = ( ε 1 , ε 2 , ε 3 ) A T(\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) = (\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) A T(ε1,ε2,ε3)=(ε1,ε2,ε3)A
即可求出:
T ( e 1 , e 2 , e 3 ) = T ( ε 1 , ε 2 , ε 3 ) C − 1 T(e_{1},e_{2},e_{3}) = T(\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) C^{-1} T(e1,e2,e3)=T(ε1,ε2,ε3)C−1
等于:
T ( e 1 , e 2 , e 3 ) = ( ε 1 , ε 2 , ε 3 ) A C − 1 T(e_{1},e_{2},e_{3}) = (\varepsilon_{1},\varepsilon_{2},\varepsilon_{3} ) A C^{-1} T(e1,e2,e3)=(ε1,ε2,ε3)AC−1
等于:
T ( e 1 , e 2 , e 3 ) = ( e 1 , e 2 , e 3 ) C A C − 1 T(e_{1},e_{2},e_{3}) = (e_{1},e_{2},e_{3})CA C^{-1} T(e1,e2,e3)=(e1,e2,e3)CAC−1
-
零变换及单位变换也是线性变换,零变换是把所有元素变成零的变换,单位变换是把每个元素映射成自己的变换。
-
线性变换作为一种运算也可以组合,如果 T 1 T_{1} T1, T 2 T_{2} T2是线性变换,则:
( T 1 + T 2 ) α = T 1 α + T 2 α , ( k T 1 ) α = k ( T 1 α ) (T_{1}+T_{2})\alpha =T_{1}\alpha+T_{2}\alpha_{}, \\ (kT_{1})\alpha=k(T_{1}\alpha) (T1+T2)α=T1α+T2α,(kT1)α=k(T1α)
可以证明,线性空间中的所有线性变换也做成一个线性空间,记作 L ( V ) L(V) L(V)
- 即用线性变换,定义的子空间,一个是像子空间,一个是核子空间。
像: T V = { T α ∣ α ∈ V } TV=\{T\alpha|\alpha \in V\} TV={Tα∣α∈V}
核: T − 1 ( 0 ) = k e r T = { α ∣ α ∈ V , T α = 0 } T^{-1}(0)=kerT=\{\alpha|\alpha \in V,T\alpha=0\} T−1(0)=kerT={α∣α∈V,Tα=0}。
像子空间是由 V V V中所有元素的像构成的,即任取 β ∈ T V \beta \in TV β∈TV,则一定存在 α ∈ V \alpha \in V α∈V,使得 β = T α \beta=T\alpha β=Tα。
核子空间是由所有 α \alpha α中的一些元素构成的,这些元素在线性变换的作用下是零。
- 定理1.3(维数定理):设
T
T
T是
n
n
n维空间上的线性变换,则
d i m T V + d i m T − 1 ( 0 ) = n dimTV+dimT^{-1}(0)=n dimTV+dimT−1(0)=n
线性变换的矩阵
V V V上的所有线性变换构成的子空间是一个比较抽象的空间,我们知道一些具体的线性变换,但是任意一个线性变换是什么样子的,怎么表达呢?
设 α ∈ V \alpha \in V α∈V,
α = ∑ i = 1 n k i α i = ( α 1 , α 2 , ⋯ , α n ) ( k 1 k 2 ⋮ k n ) \alpha = \sum_{i=1}^{n} k_{i}\alpha_{i}=\left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{n}\right) \left(\begin{array}{c}{k_{1}} \\ {k_{2}} \\ {\vdots} \\ {k_{n}}\end{array} \right) α=i=1∑nkiαi=(α1,α2,⋯,αn) k1k2⋮kn
T
α
=
(
T
α
1
,
T
α
2
,
⋯
,
T
α
n
)
(
k
1
k
2
⋮
k
n
)
T\alpha=\left( T \alpha_{1},T \alpha_{2}, \cdots, T \alpha_{n}\right) \left(\begin{array}{c}{k_{1}} \\ {k_{2}} \\ {\vdots} \\ {k_{n}}\end{array} \right)
Tα=(Tα1,Tα2,⋯,Tαn)
k1k2⋮kn
=
∑
i
=
1
n
k
i
T
α
i
=\sum_{i=1}^{n} k_{i}T\alpha_{i}
=i=1∑nkiTαi
可以看出,决定线性变换结果的是:
T α 1 , T α 2 ⋯ , T α n T\alpha_{1},T\alpha_{2} \cdots ,T\alpha_{n} Tα1,Tα2⋯,Tαn
即基底在这个线性变换之下变成了什么形式。
因为 T α 1 , T α 2 ⋯ , T α n T\alpha_{1},T\alpha_{2} \cdots ,T\alpha_{n} Tα1,Tα2⋯,Tαn,仍然是 V V V中的元素,当然可以被 V V V的基底表达:
{ T α 1 = a 11 α 1 + ⋯ + a n 1 α n T α 2 = a 12 α 1 + ⋯ + α n 2 α n ⋮ T α n = a 1 n α 1 + ⋯ + a n n α n \left\{\begin{array}{l}{T \boldsymbol{\alpha}_{1}=a_{11} \boldsymbol{\alpha}_{1}+\cdots+a_{n 1} \boldsymbol{\alpha}_{n}} \\ {T \boldsymbol{\alpha}_{2}=a_{12} \boldsymbol{\alpha}_{1}+\cdots+\boldsymbol{\alpha}_{n 2} \boldsymbol{\alpha}_{n}} \\ {\vdots} \\ {T \boldsymbol{\alpha}_{n}=a_{1 n} \boldsymbol{\alpha}_{1}+\cdots+a_{n n} \boldsymbol{\alpha}_{n}}\end{array}\right. ⎩ ⎨ ⎧Tα1=a11α1+⋯+an1αnTα2=a12α1+⋯+αn2αn⋮Tαn=a1nα1+⋯+annαn
A = ( a i j ) n × n A=(a_{ij})_{n\times n} A=(aij)n×n为线性变换 T T T在基底 α 1 , ⋯ , α n \alpha_{1},\cdots,\alpha_{n} α1,⋯,αn下的矩阵。
可见每一个线性变换实际上与一个矩阵相对应,反过来,每一个矩阵也对应一个线性变换,即给定一个矩阵
A
A
A,只要定义:
(
T
α
1
,
T
α
2
,
⋯
,
T
α
n
)
=
(
α
1
,
α
2
,
⋯
,
α
n
)
A
\left( T \alpha_{1},T \alpha_{2}, \cdots, T \alpha_{n}\right)=(\alpha_{1},\alpha_{2},\cdots,\alpha_{n})A
(Tα1,Tα2,⋯,Tαn)=(α1,α2,⋯,αn)A
则这个矩阵对应一个线性变换。
我的微信公众号名称:小小何先生
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!