阅读翻译Mathematics for Machine Learning之2.7 Linear Mappings

阅读翻译Mathematics for Machine Learning之2.7 Linear Mappings

关于:

  • 首次发表日期:2024-07-23
  • Mathematics for Machine Learning官方链接: https://mml-book.com
  • ChatGPT和KIMI机翻,人工润色
  • 非数学专业,如有错误,请不吝指出

2.7 线性映射

在接下来的内容中,我们将研究保持向量空间结构的映射,这将使我们能够定义坐标的概念。在本章的开头,我们提到向量是可以相加和乘以标量的对象,且结果仍然是向量。当应用映射时,我们希望保持这一性质:考虑两个实向量空间 V , W V, W V,W。如果映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 满足以下条件,则它保持向量空间的结构:

Φ ( x + y ) = Φ ( x ) + Φ ( y ) Φ ( λ x ) = λ Φ ( x ) \begin{align*} \Phi(\boldsymbol{x}+\boldsymbol{y}) & =\Phi(\boldsymbol{x})+\Phi(\boldsymbol{y}) \tag{2.85} \\ \Phi(\lambda \boldsymbol{x}) & =\lambda \Phi(\boldsymbol{x}) \tag{2.86} \end{align*} Φ(x+y)Φ(λx)=Φ(x)+Φ(y)=λΦ(x)(2.85)(2.86)

对于所有 x , y ∈ V \boldsymbol{x}, \boldsymbol{y} \in V x,yV λ ∈ R \lambda \in \mathbb{R} λR 成立。我们可以用以下定义来总结这一点:

定义 2.15(线性映射)。对于向量空间 V , W V, W V,W,一个映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 被称为线性映射(或向量空间同态/线性变换),如果

∀ x , y ∈ V   ∀ λ , ψ ∈ R : Φ ( λ x + ψ y ) = λ Φ ( x ) + ψ Φ ( y ) (2.87) \forall \boldsymbol{x}, \boldsymbol{y} \in V \ \forall \lambda, \psi \in \mathbb{R}: \Phi(\lambda \boldsymbol{x}+\psi \boldsymbol{y})=\lambda \Phi(\boldsymbol{x})+\psi \Phi(\boldsymbol{y}) \tag{2.87} x,yV λ,ψR:Φ(λx+ψy)=λΦ(x)+ψΦ(y)(2.87)

结果表明,我们可以将线性映射表示为矩阵(见第 2.7.1 节)。回想一下,我们也可以将一组向量作为矩阵的列。在使用矩阵时,我们必须记住矩阵代表的是什么:是线性映射还是向量的集合。我们将在第 4 章中详细讨论线性映射。在继续之前,我们将简要介绍一些特殊的映射。

定义 2.16(单射、满射、双射)。考虑一个映射 Φ \Phi Φ : V → W \mathcal{V} \rightarrow \mathcal{W} VW,其中 V \mathcal{V} V W \mathcal{W} W 可以是任意集合。那么 Φ \Phi Φ 被称为:

  • 单射(Injective),如果 ∀ x , y ∈ V \forall \boldsymbol{x}, \boldsymbol{y} \in \mathcal{V} x,yV,有 Φ ( x ) = Φ ( y ) ⟹ x = y \Phi(\boldsymbol{x})=\Phi(\boldsymbol{y}) \Longrightarrow \boldsymbol{x}=\boldsymbol{y} Φ(x)=Φ(y)x=y
  • 满射(Surjective),如果 Φ ( V ) = W \Phi(\mathcal{V})=\mathcal{W} Φ(V)=W
  • 双射(Bijective),如果它既是单射又是满射。

如果 Φ \Phi Φ 是满射,那么 W \mathcal{W} W 中的每个元素都可以通过 Φ \Phi Φ V \mathcal{V} V 中“到达”。双射 Φ \Phi Φ 可以“被逆”,即存在一个映射 Ψ \Psi Ψ : W → V \mathcal{W} \rightarrow \mathcal{V} WV 使得 Ψ ∘ Φ ( x ) = x \Psi \circ \Phi(\boldsymbol{x})=\boldsymbol{x} ΨΦ(x)=x。这个映射 Ψ \Psi Ψ 被称为 Φ \Phi Φ 的逆映射,通常记作 Φ − 1 \Phi^{-1} Φ1

有了这些定义,我们介绍以下向量空间 V V V W W W 之间的线性映射的特例:

  • 同构(Isomorphism): Φ : V → W \Phi: V \rightarrow W Φ:VW 线性且双射
  • 自同态(Endomorphism): Φ : V → V \Phi: V \rightarrow V Φ:VV 线性
  • 自同构(Automorphism): Φ : V → V \Phi: V \rightarrow V Φ:VV 线性且双射
  • 我们定义 id ⁡ V : V → V , x ↦ x \operatorname{id}_V: V \rightarrow V, \boldsymbol{x} \mapsto \boldsymbol{x} idV:VV,xx V V V 中的恒等映射或恒等自同构。

**例 2.19(同态(Homomorphism))**

映射 Φ : R 2 → C , Φ ( x ) = x 1 + i x 2 \Phi: \mathbb{R}^2 \rightarrow \mathbb{C}, \Phi(\boldsymbol{x})=x_1+i x_2 Φ:R2C,Φ(x)=x1+ix2 是一个同态:

Φ ( [ x 1 x 2 ] + [ y 1 y 2 ] ) = ( x 1 + y 1 ) + i ( x 2 + y 2 ) = x 1 + i x 2 + y 1 + i y 2 = Φ ( [ x 1 x 2 ] ) + Φ ( [ y 1 y 2 ] ) Φ ( λ [ x 1 x 2 ] ) = λ x 1 + λ i x 2 = λ ( x 1 + i x 2 ) = λ Φ ( [ x 1 x 2 ] ) . (2.88) \begin{aligned} \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]+\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) & =\left(x_1+y_1\right)+i\left(x_2+y_2\right)=x_1+i x_2+y_1+i y_2 \\ & =\Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right)+\Phi\left(\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) \\ \Phi\left(\lambda\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) & =\lambda x_1+\lambda i x_2=\lambda\left(x_1+i x_2\right)=\lambda \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) . \end{aligned} \tag{2.88} Φ([x1x2]+[y1y2])Φ(λ[x1x2])=(x1+y1)+i(x2+y2)=x1+ix2+y1+iy2=Φ([x1x2])+Φ([y1y2])=λx1+λix2=λ(x1+ix2)=λΦ([x1x2]).(2.88)

这也说明了为什么复数可以表示为 R 2 \mathbb{R}^2 R2 中的元组:存在一个双射线性映射,可以将 R 2 \mathbb{R}^2 R2 中元组的逐元素加法转换为对应加法的复数集合。请注意,我们这里只展示了线性性,而不是双射性。


定理 2.17(Axler (2015) 的定理 3.59)。有限维向量空间 V V V W W W同构的,当且仅当 dim ⁡ ( V ) = dim ⁡ ( W ) \operatorname{dim}(V)=\operatorname{dim}(W) dim(V)=dim(W)

定理 2.17 表明,存在一个线性、双射的映射在两个相同维度的向量空间之间。直观上,这意味着相同维度的向量空间在某种程度上是相同的,因为它们可以互相转换而不会遭受任何损失。

定理 2.17 还为我们提供了将 R m × n \mathbb{R}^{m \times n} Rm×n m × n m \times n m×n 矩阵的向量空间)和 R m n \mathbb{R}^{mn} Rmn(长度为 m n mn mn 的向量的向量空间)视为相同的理由,因为它们的维度都是 m n mn mn,并且存在一个线性、双射的映射将一个转换为另一个。

备注。考虑向量空间 V , W , X V, W, X V,W,X。那么:

  • 对于线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW Ψ : W → X \Psi: W \rightarrow X Ψ:WX,映射 Ψ ∘ Φ : V → X \Psi \circ \Phi: V \rightarrow X ΨΦ:VX 也是线性的。
  • 如果 Φ : V → W \Phi: V \rightarrow W Φ:VW 是同构(isomorphism),那么 Φ − 1 : W → V \Phi^{-1}: W \rightarrow V Φ1:WV 也是同构。
  • 如果 Φ : V → W , Ψ : V → W \Phi: V \rightarrow W, \Psi: V \rightarrow W Φ:VW,Ψ:VW 是线性的,那么 Φ + Ψ \Phi+\Psi Φ+Ψ λ Φ , λ ∈ R \lambda \Phi, \lambda \in \mathbb{R} λΦ,λR,也是线性的。

2.7.1 线性映射的矩阵表示

任何 n n n 维向量空间都与 R n \mathbb{R}^n Rn 同构(定理 2.17)。我们考虑一个 n n n 维向量空间 V V V 的基 { b 1 , … , b n } \left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\} {b1,,bn}。在接下来的内容中,基向量的顺序很重要。因此,我们写作

B = ( b 1 , … , b n ) (2.89) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) \tag{2.89} B=(b1,,bn)(2.89)

并称这个 n n n 元组为 V V V 的有序基。

备注(符号)。我们现在使用的符号有点复杂,因此我们在这里总结一些部分。 B = ( b 1 , … , b n ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) B=(b1,,bn) 是一个有序基, B = { b 1 , … , b n } \mathcal{B}=\left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\} B={b1,,bn} 是一个(无序)基, B = [ b 1 , … , b n ] \boldsymbol{B}=\left[\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right] B=[b1,,bn] 是一个矩阵,其列是向量 b 1 , … , b n \boldsymbol{b}_1, \ldots, \boldsymbol{b}_n b1,,bn

定义 2.18(坐标)。考虑一个向量空间 V V V 和其有序基 B = ( b 1 , … , b n ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) B=(b1,,bn)。对于任何 x ∈ V \boldsymbol{x} \in V xV,我们可以得到一个唯一的表示(线性组合)

x = α 1 b 1 + … + α n b n \boldsymbol{x}=\alpha_1 \boldsymbol{b}_1+\ldots+\alpha_n \boldsymbol{b}_n x=α1b1++αnbn

其中 α 1 , … , α n \alpha_1, \ldots, \alpha_n α1,,αn x \boldsymbol{x} x 相对于 B B B 的坐标,并且向量

α = [ α 1 ⋮ α n ] ∈ R n \boldsymbol{\alpha}=\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \in \mathbb{R}^n α= α1αn Rn

x \boldsymbol{x} x 相对于有序基 B B B坐标向量/坐标表示

一个基实际上定义了一个坐标系。我们熟悉的二维笛卡尔坐标系是由标准基向量 e 1 , e 2 \boldsymbol{e}_1, \boldsymbol{e}_2 e1,e2 张成的。在这个坐标系中,向量 x ∈ R 2 \boldsymbol{x} \in \mathbb{R}^2 xR2 有一个表示,它告诉我们如何线性组合 e 1 \boldsymbol{e}_1 e1 e 2 \boldsymbol{e}_2 e2 来得到 x \boldsymbol{x} x。然而, R 2 \mathbb{R}^2 R2 的任何基都定义了一个有效的坐标系,并且相同的向量 x \boldsymbol{x} x 在基 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2) 中可能有不同的坐标表示。在图 2.8 中,向量 x \boldsymbol{x} x 相对于标准基 ( e 1 , e 2 ) \left(\boldsymbol{e}_1, \boldsymbol{e}_2\right) (e1,e2) 的坐标是 [ 2 , 2 ] ⊤ [2,2]^{\top} [2,2]。然而,相对于基 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2),相同的向量 x \boldsymbol{x} x 表示为 [ 1.09 , 0.72 ] ⊤ [1.09,0.72]^{\top} [1.09,0.72],即 x = 1.09 b 1 + 0.72 b 2 \boldsymbol{x}=1.09 \boldsymbol{b}_1+0.72 \boldsymbol{b}_2 x=1.09b1+0.72b2。在接下来的部分中,我们将探讨如何获得这种表示。
在这里插入图片描述在这里插入图片描述


**例 2.20**

我们来看一个几何向量 x ∈ R 2 \boldsymbol{x} \in \mathbb{R}^2 xR2,其相对于 R 2 \mathbb{R}^2 R2 的标准基 ( e 1 , e 2 ) \left(\boldsymbol{e}_1, \boldsymbol{e}_2\right) (e1,e2) 的坐标为 [ 2 , 3 ] ⊤ [2,3]^{\top} [2,3]。这意味着,我们可以写作 x = 2 e 1 + 3 e 2 \boldsymbol{x}=2 \boldsymbol{e}_1+3 \boldsymbol{e}_2 x=2e1+3e2。然而,我们不必选择标准基来表示这个向量。如果我们使用基向量 b 1 = [ 1 , − 1 ] ⊤ \boldsymbol{b}_1=[1,-1]^{\top} b1=[1,1] b 2 = [ 1 , 1 ] ⊤ \boldsymbol{b}_2=[1,1]^{\top} b2=[1,1],我们将得到坐标 1 2 [ − 1 , 5 ] ⊤ \frac{1}{2}[-1,5]^{\top} 21[1,5] 来表示相对于 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2) 的相同向量(见图 2.9)。


备注。对于一个 n n n 维向量空间 V V V V V V 的一个有序基 B B B,映射 Φ : R n → V , Φ ( e i ) = b i , i = 1 , … , n \Phi: \mathbb{R}^n \rightarrow V, \Phi\left(\boldsymbol{e}_i\right)=\boldsymbol{b}_i, i=1, \ldots, n Φ:RnV,Φ(ei)=bi,i=1,,n 是线性的(根据定理 2.17,是一个同构),其中 ( e 1 , … , e n ) \left(\boldsymbol{e}_1, \ldots, \boldsymbol{e}_n\right) (e1,,en) R n \mathbb{R}^n Rn 的标准基。

现在我们已经准备好明确地建立矩阵与有限维向量空间之间的线性映射之间的联系。

定义 2.19(变换矩阵)。考虑向量空间 V V V W W W,它们分别有对应的(有序)基 B = ( b 1 , … , b n ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) B=(b1,,bn) C = ( c 1 , … , c m ) C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right) C=(c1,,cm)。此外,我们考虑一个线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW。对于 j ∈ { 1 , … , n } j \in\{1, \ldots, n\} j{1,,n}

Φ ( b j ) = α 1 j c 1 + ⋯ + α m j c m = ∑ i = 1 m α i j c i (2.92) \Phi\left(\boldsymbol{b}_j\right)=\alpha_{1 j} \boldsymbol{c}_1+\cdots+\alpha_{m j} \boldsymbol{c}_m=\sum_{i=1}^m \alpha_{i j} \boldsymbol{c}_i \tag{2.92} Φ(bj)=α1jc1++αmjcm=i=1mαijci(2.92)

Φ ( b j ) \Phi\left(\boldsymbol{b}_j\right) Φ(bj) 相对于 C C C 的唯一表示。然后,我们称 m × n m \times n m×n 矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ,其元素由下式给出

A Φ ( i , j ) = α i j , (2.93) A_{\Phi}(i, j)=\alpha_{i j}, \tag{2.93} AΦ(i,j)=αij,(2.93)

Φ \Phi Φ变换矩阵(相对于 V V V 的有序基 B B B W W W 的有序基 C C C)。

Φ ( b j ) \Phi\left(\boldsymbol{b}_j\right) Φ(bj) 相对于 W W W 的有序基 C C C 的坐标是 A Φ \boldsymbol{A}_{\Phi} AΦ 的第 j j j 列。考虑(有限维)向量空间 V , W V, W V,W 具有有序基 B , C B, C B,C 和线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 及其变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ。如果 x ^ \hat{\boldsymbol{x}} x^ x ∈ V \boldsymbol{x} \in V xV 相对于 B B B 的坐标向量, y ^ \hat{\boldsymbol{y}} y^ y = Φ ( x ) ∈ W \boldsymbol{y}=\Phi(\boldsymbol{x}) \in W y=Φ(x)W 相对于 C C C 的坐标向量,那么

y ^ = A Φ x ^ . (2.94) \hat{\boldsymbol{y}}=\boldsymbol{A}_{\Phi} \hat{\boldsymbol{x}} . \tag{2.94} y^=AΦx^.(2.94)

这意味着变换矩阵可以用来将相对于 V V V 中有序基的坐标映射为相对于 W W W 中有序基的坐标。


**例 2.21(变换矩阵)**

考虑一个同态 Φ : V → W \Phi: V \rightarrow W Φ:VW 以及 V V V 的有序基 B = ( b 1 , … , b 3 ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_3\right) B=(b1,,b3) W W W 的有序基 C = ( c 1 , … , c 4 ) C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_4\right) C=(c1,,c4)。给定

Φ ( b 1 ) = c 1 − c 2 + 3 c 3 − c 4 , Φ ( b 2 ) = 2 c 1 + c 2 + 7 c 3 + 2 c 4 , Φ ( b 3 ) = 3 c 2 + c 3 + 4 c 4 , (2.95) \begin{aligned} & \Phi\left(b_1\right)=c_1-c_2+3 c_3-c_4, \\ & \Phi\left(b_2\right)=2 c_1+c_2+7 c_3+2 c_4, \\ & \Phi\left(b_3\right)=3 c_2+c_3+4 c_4, \end{aligned} \tag{2.95} Φ(b1)=c1c2+3c3c4,Φ(b2)=2c1+c2+7c3+2c4,Φ(b3)=3c2+c3+4c4,(2.95)

相对于 B B B C C C 的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ 满足 Φ ( b k ) = ∑ i = 1 4 α i k c i , k = 1 , … , 3 \Phi\left(\boldsymbol{b}_k\right)=\sum_{i=1}^4 \alpha_{i k} \boldsymbol{c}_i, k=1, \ldots, 3 Φ(bk)=i=14αikci,k=1,,3,其表示为

A Φ = [ α 1 , α 2 , α 3 ] = [ 1 2 0 − 1 1 3 3 7 1 − 1 2 4 ] , (2.96) \boldsymbol{A}_{\Phi}=\left[\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \boldsymbol{\alpha}_3\right]=\left[\begin{array}{ccc} 1 & 2 & 0 \\ -1 & 1 & 3 \\ 3 & 7 & 1 \\ -1 & 2 & 4 \end{array}\right], \tag{2.96} AΦ=[α1,α2,α3]= 113121720314 ,(2.96)

其中 α j , j = 1 , 2 , 3 \boldsymbol{\alpha}_j, j=1,2,3 αj,j=1,2,3,是 Φ ( b j ) \Phi\left(\boldsymbol{b}_j\right) Φ(bj) 相对于 C C C 的坐标向量。


在这里插入图片描述

图 2.10 给出了一组向量的三个线性变换示例。图 2.10(a) 展示了 R 2 \mathbb{R}^2 R2 中的 400 个向量,每个向量由相应的 ( x 1 , x 2 ) (x_1, x_2) (x1,x2) 坐标处的一个点表示。这些向量被排列在一个正方形中。当我们使用矩阵 A 1 \boldsymbol{A}_1 A1(在公式 2.97 中)对这些向量的每一个进行线性变换时,我们得到了图 2.10(b) 中的旋转正方形。如果我们应用由 A 2 \boldsymbol{A}_2 A2 表示的线性映射,我们将得到图 2.10© 中的矩形,其中每个 x 1 x_1 x1 坐标被拉伸了 2 倍。图 2.10(d) 展示了使用 A 3 \boldsymbol{A}_3 A3 进行线性变换后的原始正方形,它结合了反射、旋转和拉伸的效果。

2.7.2 基变换

在接下来的内容中,我们将更仔细地研究线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 的变换矩阵在我们改变 V V V W W W 中的基时是如何变化的。考虑 V V V 的两个有序基

B = ( b 1 , … , b n ) , B ~ = ( b ~ 1 , … , b ~ n ) (2.98) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right), \quad \tilde{B}=\left(\tilde{\boldsymbol{b}}_1, \ldots, \tilde{\boldsymbol{b}}_n\right) \tag{2.98} B=(b1,,bn),B~=(b~1,,b~n)(2.98)

W W W 的两个有序基

C = ( c 1 , … , c m ) , C ~ = ( c ~ 1 , … , c ~ m ) (2.99) C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right), \quad \tilde{C}=\left(\tilde{\boldsymbol{c}}_1, \ldots, \tilde{\boldsymbol{c}}_m\right) \tag{2.99} C=(c1,,cm),C~=(c~1,,c~m)(2.99)
此外, A Φ ∈ R m × n A_{\Phi} \in \mathbb{R}^{m \times n} AΦRm×n 是相对于基 B B B C C C 的线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 的变换矩阵,而 A ~ Φ ∈ R m × n \tilde{\boldsymbol{A}}_{\Phi} \in \mathbb{R}^{m \times n} A~ΦRm×n 是相对于 B ~ \tilde{B} B~ C ~ \tilde{C} C~ 的相应变换矩阵。接下来,我们将研究 A \boldsymbol{A} A A ~ \tilde{\boldsymbol{A}} A~ 是如何关联的,即如果我们选择从 B , C B, C B,C 改变基到 B ~ , C ~ \tilde{B}, \tilde{C} B~,C~,我们是否可以/如何将 A Φ \boldsymbol{A}_{\Phi} AΦ 转换为 A ~ Φ \tilde{A}_{\Phi} A~Φ

备注。我们实际上得到了恒等映射 i d V \mathrm{id}_V idV 的不同坐标表示。在图 2.9 的上下文中,这意味着在不改变向量 x \boldsymbol{x} x 的情况下,将相对于 ( e 1 , e 2 ) \left(\boldsymbol{e}_1, \boldsymbol{e}_2\right) (e1,e2) 的坐标映射到相对于 ( b 1 , b 2 ) \left(b_1, b_2\right) (b1,b2) 的坐标。通过改变基和相应地改变向量的表示,相对于这个新基的变换矩阵可以有一个特别简单的形式,这允许进行直接的计算。


**例 2.23(基变换)**

考虑一个相对于 R 2 \mathbb{R}^2 R2 中的标准基的变换矩阵

A = [ 2 1 1 2 ] (2.100) \boldsymbol{A}=\left[\begin{array}{ll} 2 & 1 \\ 1 & 2 \end{array}\right] \tag{2.100} A=[2112](2.100)

如果我们定义一个新的基

B = ( [ 1 1 ] , [ 1 − 1 ] ) (2.101) B=\left(\left[\begin{array}{l} 1 \\ 1 \end{array}\right],\left[\begin{array}{c} 1 \\ -1 \end{array}\right]\right) \tag{2.101} B=([11],[11])(2.101)

我们将获得一个对角变换矩阵

A ~ = [ 3 0 0 1 ] (2.102) \tilde{\boldsymbol{A}}=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \end{array}\right] \tag{2.102} A~=[3001](2.102)

相对于基 B B B,其比 A \boldsymbol{A} A 更容易处理。


接下来,我们将研究将一个基下的坐标向量变换为另一个基下的坐标向量的映射。我们将首先陈述主要结果,然后提供解释。

定理 2.20(基变换)。对于线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW V V V 的有序基

B = ( b 1 , … , b n ) , B ~ = ( b ~ 1 , … , b ~ n ) (2.103) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right), \quad \tilde{B}=\left(\tilde{\boldsymbol{b}}_1, \ldots, \tilde{\boldsymbol{b}}_n\right) \tag{2.103} B=(b1,,bn),B~=(b~1,,b~n)(2.103)

W W W 的有序基

C = ( c 1 , … , c m ) , C ~ = ( c ~ 1 , … , c ~ m ) (2.104) C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right), \quad \tilde{C}=\left(\tilde{\boldsymbol{c}}_1, \ldots, \tilde{\boldsymbol{c}}_m\right) \tag{2.104} C=(c1,,cm),C~=(c~1,,c~m)(2.104)

以及相对于基 B B B C C C Φ \Phi Φ 的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ,相对于基 B ~ \tilde{B} B~ C ~ \tilde{C} C~ 的相应变换矩阵 A ~ Φ \tilde{A}_{\Phi} A~Φ 由下式给出:

A ~ Φ = T − 1 A Φ S (2.105) \tilde{A}_{\Phi}=\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} S \tag{2.105} A~Φ=T1AΦS(2.105)

这里, S ∈ R n × n S \in \mathbb{R}^{n \times n} SRn×n 是将相对于 B ~ \tilde{B} B~ 的坐标映射到相对于 B B B 的坐标的 i d V \mathrm{id}_V idV 的变换矩阵,而 T ∈ R m × m \boldsymbol{T} \in \mathbb{R}^{m \times m} TRm×m 是将相对于 C ~ \tilde{C} C~ 的坐标映射到相对于 C C C 的坐标的 i d W \mathrm{id}_W idW 的变换矩阵。

证明 遵循 Drumm 和 Weil (2001) 的方法,我们可以将 V V V 的新基 B ~ \tilde{B} B~ 的向量表示为基 B B B 的基向量的线性组合,使得

b ~ j = s 1 j b 1 + ⋯ + s n j b n = ∑ i = 1 n s i j b i , j = 1 , … , n . (2.106) \tilde{\boldsymbol{b}}_j=s_{1 j} \boldsymbol{b}_1+\cdots+s_{n j} \boldsymbol{b}_n=\sum_{i=1}^n s_{i j} \boldsymbol{b}_i, \quad j=1, \ldots, n . \tag{2.106} b~j=s1jb1++snjbn=i=1nsijbi,j=1,,n.(2.106)

同样,我们将 W W W 的新基向量 C ~ \tilde{C} C~ 表示为基 C C C 的基向量的线性组合,得到

c ~ k = t 1 k c 1 + ⋯ + t m k c m = ∑ l = 1 m t l k c l , k = 1 , … , m . (2.107) \tilde{\boldsymbol{c}}_k=t_{1 k} \boldsymbol{c}_1+\cdots+t_{m k} \boldsymbol{c}_m=\sum_{l=1}^m t_{l k} \boldsymbol{c}_l, \quad k=1, \ldots, m . \tag{2.107} c~k=t1kc1++tmkcm=l=1mtlkcl,k=1,,m.(2.107)

我们定义 S = ( s i j ) ∈ R n × n \boldsymbol{S} = (s_{ij}) \in \mathbb{R}^{n \times n} S=(sij)Rn×n 为变换矩阵,它将相对于 B ~ \tilde{B} B~ 的坐标映射到相对于 B B B 的坐标,定义 T = ( t l k ) ∈ R m × m \boldsymbol{T} = (t_{lk}) \in \mathbb{R}^{m \times m} T=(tlk)Rm×m 为变换矩阵,它将相对于 C ~ \tilde{C} C~ 的坐标映射到相对于 C C C 的坐标。特别地, S \boldsymbol{S} S 的第 j j j 列是 b ~ j \tilde{\boldsymbol{b}}_j b~j 相对于 B B B 的坐标表示, T \boldsymbol{T} T 的第 k k k 列是 c ~ k \tilde{\boldsymbol{c}}_k c~k 相对于 C C C 的坐标表示。注意, S \boldsymbol{S} S T \boldsymbol{T} T 都是正则矩阵。

我们将从两个角度来观察 Φ ( b ~ j ) \Phi(\tilde{\boldsymbol{b}}_j) Φ(b~j)。首先,应用映射 Φ \Phi Φ,我们得到对于所有的 j = 1 , … , n j=1, \ldots, n j=1,,n

在这里插入图片描述其中我们首先将新的基向量 c ~ k ∈ W \tilde{\boldsymbol{c}}_k \in W c~kW 表示为基向量 c l ∈ W \boldsymbol{c}_l \in W clW 的线性组合,然后交换求和的顺序。

或者,当我们将 b ~ j ∈ V \tilde{\boldsymbol{b}}_j \in V b~jV 表示为 b j ∈ V \boldsymbol{b}_j \in V bjV 的线性组合时,我们得到

在这里插入图片描述在这里,我们利用了 Φ \Phi Φ 的线性特性。比较公式 (2.108) 和 (2.109b),可以得出对于所有的 j = 1 , … , n j=1, \ldots, n j=1,,n l = 1 , … , m l=1, \ldots, m l=1,,m

∑ k = 1 m t l k a ~ k j = ∑ i = 1 n a l i s i j (2.110) \sum_{k=1}^m t_{l k} \tilde{a}_{k j}=\sum_{i=1}^n a_{l i} s_{i j} \tag{2.110} k=1mtlka~kj=i=1nalisij(2.110)

因此,

T A ~ Φ = A Φ S ∈ R m × n , (2.111) \boldsymbol{T} \tilde{\boldsymbol{A}}_{\Phi}=\boldsymbol{A}_{\Phi} \boldsymbol{S} \in \mathbb{R}^{m \times n}, \tag{2.111} TA~Φ=AΦSRm×n,(2.111)

这样就有

A ~ Φ = T − 1 A Φ S , (2.112) \tilde{A}_{\Phi}=T^{-1} A_{\Phi} S, \tag{2.112} A~Φ=T1AΦS,(2.112)

这证明了定理 2.20。

定理 2.20 告诉我们,当 V V V 中的基( B B B B ~ \tilde{B} B~ 取代)和 W W W 中的基( C C C C ~ \tilde{C} C~ 取代)发生变化时,线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ 被替换为等效矩阵 A ~ Φ \tilde{\boldsymbol{A}}_{\Phi} A~Φ,其关系为:

A ~ Φ = T − 1 A Φ S . (2.113) \tilde{A}_{\Phi}=T^{-1} A_{\Phi} S . \tag{2.113} A~Φ=T1AΦS.(2.113)

图 2.11 说明了这种关系:考虑一个同态映射 Φ : V → W \Phi: V \rightarrow W Φ:VW V V V 的有序基 B , B ~ B, \tilde{B} B,B~ W W W 的有序基 C , C ~ C, \tilde{C} C,C~。映射 Φ C B \Phi_{C B} ΦCB Φ \Phi Φ 的一个实例,将 B B B 的基向量映射到 C C C 的基向量的线性组合。假设我们知道 Φ C B \Phi_{C B} ΦCB 的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ,对应于有序基 B , C B, C B,C。当我们在 V V V 中从 B B B B ~ \tilde{B} B~ 和在 W W W 中从 C C C C ~ \tilde{C} C~ 进行基变换时,我们可以确定相应的变换矩阵 A ~ Φ \tilde{\boldsymbol{A}}_{\Phi} A~Φ 如下

  • 首先,我们找到线性映射 Ψ B B ~ : V → V \Psi_{B \tilde{B}}: V \rightarrow V ΨBB~:VV 的矩阵表示,该映射将相对于新基 B ~ \tilde{B} B~ 的坐标映射到(唯一的)相对于“旧”基 B B B 的坐标(在 V V V 中)。
  • 然后,我们使用 Φ C B : V → W \Phi_{C B}: V \rightarrow W ΦCB:VW 的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ 将这些坐标映射到 W W W 中相对于 C C C 的坐标。
  • 最后,我们使用线性映射 Ξ C ~ C : W → W \Xi_{\tilde{C} C}: W \rightarrow W ΞC~C:WW 将相对于 C C C 的坐标映射到相对于 C ~ \tilde{C} C~ 的坐标。因此,我们可以将线性映射 Φ C ~ B ~ \Phi_{\tilde{C} \tilde{B}} ΦC~B~ 表示为涉及“旧”基的线性映射的组合:

Φ C ~ B ~ = Ξ C ~ C ∘ Φ C B ∘ Ψ B B ~ = Ξ C C ~ − 1 ∘ Φ C B ∘ Ψ B B ~ . (2.114) \Phi_{\tilde{C} \tilde{B}}=\Xi_{\tilde{C} C} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}}=\Xi_{C \tilde{C}}^{-1} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}} . \tag{2.114} ΦC~B~=ΞC~CΦCBΨBB~=ΞCC~1ΦCBΨBB~.(2.114)

具体来说,我们使用 Ψ B B ~ = id ⁡ V \Psi_{B \tilde{B}}=\operatorname{id}_V ΨBB~=idV Ξ C C ~ = i d W \Xi_{C \tilde{C}}=\mathrm{id}_W ΞCC~=idW,即将向量映射到其自身的恒等映射,但相对于不同的基。

在这里插入图片描述
图 2.11 对于同态映射 Φ : V → W \Phi: V \rightarrow W Φ:VW 以及 V V V 的有序基 B , B ~ B, \tilde{B} B,B~ W W W 的有序基 C , C ~ C, \tilde{C} C,C~(用蓝色标记),我们可以将相对于基 B ~ , C ~ \tilde{B}, \tilde{C} B~,C~ 的映射 Φ C ~ B ~ \Phi_{\tilde{C} \tilde{B}} ΦC~B~ 等效地表示为同态映射 Φ C ~ B ~ = \Phi_{\tilde{C} \tilde{B}}= ΦC~B~= Ξ C ~ C ∘ Φ C B ∘ Ψ B B ~ \Xi_{\tilde{C} C} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}} ΞC~CΦCBΨBB~ 的组合,其下标表示了相应的基。相应的变换矩阵用红色标出。

定义 2.21(等价)。如果存在正则矩阵 S ∈ R n × n S \in \mathbb{R}^{n \times n} SRn×n T ∈ R m × m \boldsymbol{T} \in \mathbb{R}^{m \times m} TRm×m,使得 A ~ = T − 1 A S \tilde{A} = T^{-1} A S A~=T1AS,那么两个矩阵 A , A ~ ∈ R m × n \boldsymbol{A}, \tilde{A} \in \mathbb{R}^{m \times n} A,A~Rm×n等价的

定义 2.22(相似)。如果存在正则矩阵 S ∈ R n × n S \in \mathbb{R}^{n \times n} SRn×n 使得 A ~ = S − 1 A S \tilde{A} = \boldsymbol{S}^{-1} \boldsymbol{A} \boldsymbol{S} A~=S1AS,那么两个矩阵 A , A ~ ∈ R n × n \boldsymbol{A}, \tilde{A} \in \mathbb{R}^{n \times n} A,A~Rn×n相似的

备注。相似矩阵总是等价的。然而,等价矩阵不一定是相似的。

备注。考虑向量空间 V , W , X V, W, X V,W,X。从定理 2.17 后的备注中我们已经知道,对于线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW Ψ : W → X \Psi: W \rightarrow X Ψ:WX,映射 Ψ ∘ Φ : V → X \Psi \circ \Phi: V \rightarrow X ΨΦ:VX 也是线性的。对于相应映射的变换矩阵 A Φ \boldsymbol{A}_{\Phi} AΦ A Ψ \boldsymbol{A}_{\Psi} AΨ,整体变换矩阵为 A Ψ ∘ Φ = A Ψ A Φ \boldsymbol{A}_{\Psi \circ \Phi} = \boldsymbol{A}_{\Psi} \boldsymbol{A}_{\Phi} AΨΦ=AΨAΦ

根据这一说明,我们可以从组合线性映射的角度来看待基变换:

  • A Φ \boldsymbol{A}_{\Phi} AΦ 是相对于基 B , C B, C B,C 的线性映射 Φ C B : V → W \Phi_{C B}: V \rightarrow W ΦCB:VW 的变换矩阵。
  • A ~ Φ \tilde{A}_{\Phi} A~Φ 是相对于基 B ~ , C ~ \tilde{B}, \tilde{C} B~,C~ 的线性映射 Φ C ~ B ~ : V → W \Phi_{\tilde{C} \tilde{B}}: V \rightarrow W ΦC~B~:VW 的变换矩阵。
  • S S S 是相对于基 B , B ~ B, \tilde{B} B,B~ 的线性映射 Ψ B B ~ : V → V \Psi_{B \tilde{B}}: V \rightarrow V ΨBB~:VV(自同构)的变换矩阵,它用 B B B 来表示 B ~ \tilde{B} B~。通常, Ψ = i d V \Psi=\mathrm{id}_V Ψ=idV V V V 中的恒等映射。
  • T \boldsymbol{T} T 是相对于基 C , C ~ C, \tilde{C} C,C~ 的线性映射 Ξ C C ~ : W → W \Xi_{C \tilde{C}}: W \rightarrow W ΞCC~:WW(自同构)的变换矩阵,它用 C C C 来表示 C ~ \tilde{C} C~。通常, Ξ = i d W \Xi=\mathrm{id}_W Ξ=idW W W W 中的恒等映射。

如果我们(非正式地)只根据基来写下这些变换,那么 A Φ : B → C , A ~ Φ : B ~ → C ~ , S : B ~ → B , T : C ~ → C \boldsymbol{A}_{\Phi}: B \rightarrow C, \tilde{\boldsymbol{A}}_{\Phi}: \tilde{B} \rightarrow \tilde{C}, \boldsymbol{S}: \tilde{B} \rightarrow B, \boldsymbol{T}: \tilde{C} \rightarrow C AΦ:BC,A~Φ:B~C~,S:B~B,T:C~C T − 1 : C → C ~ \boldsymbol{T}^{-1}: C \rightarrow \tilde{C} T1:CC~,并且

B ~ → C ~ = B ~ → B → C → C ~ A ~ Φ = T − 1 A Φ S . \begin{align*} \tilde{B} \rightarrow \tilde{C} & =\tilde{B} \rightarrow B \rightarrow C \rightarrow \tilde{C} \tag{2.115} \\ \tilde{\boldsymbol{A}}_{\Phi} & =\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} \boldsymbol{S} .\tag{2.116} \end{align*} B~C~A~Φ=B~BCC~=T1AΦS.(2.115)(2.116)

注意,公式 (2.116) 中的执行顺序是从右到左的,因为向量是在右侧进行相乘的,所以 x ↦ S x ↦ A Φ ( S x ) ↦ T − 1 ( A Φ ( S x ) ) = A ~ Φ x \boldsymbol{x} \mapsto \boldsymbol{S} \boldsymbol{x} \mapsto \boldsymbol{A}_{\Phi}(\boldsymbol{S} \boldsymbol{x}) \mapsto T^{-1}\left(A_{\Phi}(S x)\right)=\tilde{\boldsymbol{A}}_{\Phi} x xSxAΦ(Sx)T1(AΦ(Sx))=A~Φx


**示例 2.24(基变换)**

考虑一个线性映射 Φ : R 3 → R 4 \Phi: \mathbb{R}^3 \rightarrow \mathbb{R}^4 Φ:R3R4,其变换矩阵为

A Φ = [ 1 2 0 − 1 1 3 3 7 1 − 1 2 4 ] (2.117) \boldsymbol{A}_{\Phi}=\left[\begin{array}{ccc} 1 & 2 & 0 \\ -1 & 1 & 3 \\ 3 & 7 & 1 \\ -1 & 2 & 4 \end{array}\right] \tag{2.117} AΦ= 113121720314 (2.117)

相对于标准基

B = ( [ 1 0 0 ] , [ 0 1 0 ] , [ 0 0 1 ] ) , C = ( [ 1 0 0 0 ] , [ 0 1 0 0 ] , [ 0 0 1 0 ] , [ 0 0 0 1 ] ) . (2.118) B=\left(\left[\begin{array}{l} 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 1 \end{array}\right]\right), \quad C=\left(\left[\begin{array}{l} 1 \\ 0 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 0 \\ 1 \end{array}\right]\right) . \tag{2.118} B= 100 , 010 , 001 ,C= 1000 , 0100 , 0010 , 0001 .(2.118)

我们要找出相对于新基

B ~ = ( [ 1 1 0 ] , [ 0 1 1 ] , [ 1 0 1 ] ) ∈ R 3 , C ~ = ( [ 1 1 0 0 ] , [ 1 0 1 0 ] , [ 0 1 1 0 ] , [ 1 0 0 1 ] ) . (2.119) \tilde{B}=\left(\left[\begin{array}{l} 1 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 1 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 1 \end{array}\right]\right) \in \mathbb{R}^3, \quad \tilde{C}=\left(\left[\begin{array}{l} 1 \\ 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 0 \\ 1 \end{array}\right]\right) . \tag{2.119} B~= 110 , 011 , 101 R3,C~= 1100 , 1010 , 0110 , 1001 .(2.119)

下的变换矩阵 A ~ Φ \tilde{\boldsymbol{A}}_{\Phi} A~Φ

S = [ 1 0 1 1 1 0 0 1 1 ] , T = [ 1 1 0 1 1 0 1 0 0 1 1 0 0 0 0 1 ] (2.120) \boldsymbol{S}=\left[\begin{array}{lll} 1 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 1 & 1 \end{array}\right], \quad \boldsymbol{T}=\left[\begin{array}{llll} 1 & 1 & 0 & 1 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{array}\right] \tag{2.120} S= 110011101 ,T= 1100101001101001 (2.120)

其中 S S S 的第 i i i 列是 b ~ i \tilde{\boldsymbol{b}}_i b~i 相对于基 B B B 的坐标表示。由于 B B B 是标准基,坐标表示很容易找到。对于一般基 B B B,我们需要解线性方程组以找到 λ i \lambda_i λi 使得 ∑ i = 1 3 λ i b i = b ~ j , j = 1 , … , 3 \sum_{i=1}^3 \lambda_i \boldsymbol{b}_i=\tilde{\boldsymbol{b}}_j, j=1, \ldots, 3 i=13λibi=b~j,j=1,,3。类似地, T T T 的第 j j j 列是 c ~ j \tilde{c}_j c~j 相对于基 C C C 的坐标表示。

因此,我们得到

A ~ Φ = T − 1 A Φ S = 1 2 [ 1 1 − 1 − 1 1 − 1 1 − 1 − 1 1 1 1 0 0 0 2 ] [ 3 2 1 0 4 2 10 8 4 1 6 3 ] = [ − 4 − 4 − 2 6 0 0 4 8 4 1 6 3 ] . \begin{align*} \tilde{\boldsymbol{A}}_{\Phi} & =\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} \boldsymbol{S}=\frac{1}{2}\left[\begin{array}{cccc} 1 & 1 & -1 & -1 \\ 1 & -1 & 1 & -1 \\ -1 & 1 & 1 & 1 \\ 0 & 0 & 0 & 2 \end{array}\right]\left[\begin{array}{ccc} 3 & 2 & 1 \\ 0 & 4 & 2 \\ 10 & 8 & 4 \\ 1 & 6 & 3 \end{array}\right] \tag{2.121a} \\ & =\left[\begin{array}{ccc} -4 & -4 & -2 \\ 6 & 0 & 0 \\ 4 & 8 & 4 \\ 1 & 6 & 3 \end{array}\right] . \tag{2.121b} \end{align*} A~Φ=T1AΦS=21 1110111011101112 3010124861243 = 464140862043 .(2.121a)(2.121b)


在第4章中,我们将能够利用基变换的概念找到一个基,使得自同态的变换矩阵具有特别简单的(对角)形式。在第10章中,我们将研究一个数据压缩问题,并找到一个方便的基,我们可以将数据投影到这个基上,同时最小化压缩损失。

3.7.3 像和核

线性映射的像和核是具有某些重要性质的向量子空间。接下来,我们将更仔细地描述它们。

定义 2.23(像和核)。

对于 Φ : V → W \Phi: V \rightarrow W Φ:VW,我们定义 核/零空间

ker ⁡ ( Φ ) : = Φ − 1 ( 0 W ) = { v ∈ V : Φ ( v ) = 0 W } \operatorname{ker}(\Phi):=\Phi^{-1}\left(\mathbf{0}_W\right)=\left\{\boldsymbol{v} \in V: \Phi(\boldsymbol{v})=\mathbf{0}_W\right\} ker(Φ):=Φ1(0W)={vV:Φ(v)=0W}

像/值域

Im ⁡ ( Φ ) : = Φ ( V ) = { w ∈ W ∣ ∃ v ∈ V : Φ ( v ) = w } \operatorname{Im}(\Phi):=\Phi(V)=\{\boldsymbol{w} \in W \mid \exists \boldsymbol{v} \in V: \Phi(\boldsymbol{v})=\boldsymbol{w}\} Im(Φ):=Φ(V)={wWvV:Φ(v)=w}

我们也分别称 V V V W W W Φ \Phi Φ 的定义域和值域。

直观上,核是 Φ \Phi Φ 映射到 W W W 中的中性元素 0 W ∈ W \mathbf{0}_W \in W 0WW 的向量集 v ∈ V \boldsymbol{v} \in V vV。像是可以通过 Φ \Phi Φ V V V 中任何向量“到达”的向量 w ∈ W \boldsymbol{w} \in W wW 的集合。图 2.12 中给出了一个示意图。

备注。考虑一个线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW,其中 V , W V, W V,W 是向量空间。

  • Φ ( 0 V ) = 0 W \Phi\left(\mathbf{0}_V\right)=\mathbf{0}_W Φ(0V)=0W 总是成立,因此 0 V ∈ ker ⁡ ( Φ ) \mathbf{0}_V \in \operatorname{ker}(\Phi) 0Vker(Φ)。特别是,零空间永远不会为空。
  • Im ⁡ ( Φ ) ⊆ W \operatorname{Im}(\Phi) \subseteq W Im(Φ)W W W W 的一个子空间,而 ker ⁡ ( Φ ) ⊆ V \operatorname{ker}(\Phi) \subseteq V ker(Φ)V V V V 的一个子空间。
  • 当且仅当 ker ⁡ ( Φ ) = { 0 } \operatorname{ker}(\Phi)=\{\mathbf{0}\} ker(Φ)={0} 时, Φ \Phi Φ 是单射(injective)(一一对应)。

注释(零空间和列空间)。我们考虑 A ∈ R m × n \boldsymbol{A} \in \mathbb{R}^{m \times n} ARm×n 和一个线性映射 Φ : R n → R m , x ↦ A x \Phi: \mathbb{R}^n \rightarrow \mathbb{R}^m, \boldsymbol{x} \mapsto \boldsymbol{A x} Φ:RnRm,xAx

  • 对于 A = [ a 1 , … , a n ] \boldsymbol{A}=\left[\boldsymbol{a}_1, \ldots, \boldsymbol{a}_n\right] A=[a1,,an],其中 a i \boldsymbol{a}_i ai A \boldsymbol{A} A 的列,我们得到
    Im ⁡ ( Φ ) = { A x : x ∈ R n } = { ∑ i = 1 n x i a i : x 1 , … , x n ∈ R } = span ⁡ [ a 1 , … , a n ] ⊆ R m \begin{align*} \operatorname{Im}(\Phi) & =\left\{\boldsymbol{A} \boldsymbol{x}: \boldsymbol{x} \in \mathbb{R}^n\right\}=\left\{\sum_{i=1}^n x_i \boldsymbol{a}_i: x_1, \ldots, x_n \in \mathbb{R}\right\} \tag{2.124a} \\ & =\operatorname{span}\left[\boldsymbol{a}_1, \ldots, \boldsymbol{a}_n\right] \subseteq \mathbb{R}^m \tag{2.124b} \end{align*} Im(Φ)={Ax:xRn}={i=1nxiai:x1,,xnR}=span[a1,,an]Rm(2.124a)(2.124b)
    即,像是 A \boldsymbol{A} A 列的张成空间,也称为 列空间。因此,列空间(像)是 R m \mathbb{R}^m Rm 的一个子空间,其中 m m m 是矩阵的“高度”。
  • rk ⁡ ( A ) = dim ⁡ ( Im ⁡ ( Φ ) ) \operatorname{rk}(\boldsymbol{A})=\operatorname{dim}(\operatorname{Im}(\Phi)) rk(A)=dim(Im(Φ))
  • 核/零空间 ker ⁡ ( Φ ) \operatorname{ker}(\Phi) ker(Φ) 是齐次线性方程组(homogeneous system of linear equations) A x = 0 \boldsymbol{A x}=\mathbf{0} Ax=0 的通解,并且包含了所有可能的 R n \mathbb{R}^n Rn 中的元素的线性组合,它们产生 0 ∈ R m \mathbf{0} \in \mathbb{R}^m 0Rm
  • 核是 R n \mathbb{R}^n Rn 的一个子空间,其中 n n n 是矩阵的“宽度”。
  • 核关注列之间的关系,我们可以用它来确定是否/如何将一列表示为其他列的线性组合。

在这里插入图片描述


**示例 2.25(线性映射的像和核)**

映射

Φ : R 4 → R 2 , [ x 1 x 2 x 3 x 4 ] ↦ [ 1 2 − 1 0 1 0 0 1 ] [ x 1 x 2 x 3 x 4 ] = [ x 1 + 2 x 2 − x 3 x 1 + x 4 ] = x 1 [ 1 1 ] + x 2 [ 2 0 ] + x 3 [ − 1 0 ] + x 4 [ 0 1 ] \begin{align*} \Phi: \mathbb{R}^4 \rightarrow \mathbb{R}^2, \quad\left[\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right] & \mapsto\left[\begin{array}{cccc} 1 & 2 & -1 & 0 \\ 1 & 0 & 0 & 1 \end{array}\right]\left[\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right]=\left[\begin{array}{c} x_1+2 x_2-x_3 \\ x_1+x_4 \end{array}\right] \tag{2.125a} \\ & =x_1\left[\begin{array}{l} 1 \\ 1 \end{array}\right]+x_2\left[\begin{array}{l} 2 \\ 0 \end{array}\right]+x_3\left[\begin{array}{c} -1 \\ 0 \end{array}\right]+x_4\left[\begin{array}{l} 0 \\ 1 \end{array}\right] \tag{2.125b} \end{align*} Φ:R4R2, x1x2x3x4 [11201001] x1x2x3x4 =[x1+2x2x3x1+x4]=x1[11]+x2[20]+x3[10]+x4[01](2.125a)(2.125b)

是线性的。为了确定 Im ⁡ ( Φ ) \operatorname{Im}(\Phi) Im(Φ),我们可以取变换矩阵列的张成空间,得到

Im ⁡ ( Φ ) = span ⁡ [ [ 1 1 ] , [ 2 0 ] , [ − 1 0 ] , [ 0 1 ] ] (2.126) \operatorname{Im}(\Phi)=\operatorname{span}\left[\left[\begin{array}{l} 1 \\ 1 \end{array}\right],\left[\begin{array}{l} 2 \\ 0 \end{array}\right],\left[\begin{array}{c} -1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \end{array}\right]\right] \tag{2.126} Im(Φ)=span[[11],[20],[10],[01]](2.126)

为了计算 Φ \Phi Φ 的核(零空间),我们需要解 A x = 0 \boldsymbol{A} \boldsymbol{x}=\mathbf{0} Ax=0,即需要解一个齐次方程组。为此,我们使用高斯消元法将 A \boldsymbol{A} A 转换为简化行最简形式:

[ 1 2 − 1 0 1 0 0 1 ] ⇝ ⋯ ⇝ [ 1 0 0 1 0 1 − 1 2 − 1 2 ] . (2.127) \left[\begin{array}{cccc} 1 & 2 & -1 & 0 \\ 1 & 0 & 0 & 1 \end{array}\right] \rightsquigarrow \cdots \rightsquigarrow\left[\begin{array}{cccc} 1 & 0 & 0 & 1 \\ 0 & 1 & -\frac{1}{2} & -\frac{1}{2} \end{array}\right] . \tag{2.127} [11201001][1001021121].(2.127)

这个矩阵是简化行最简形式,我们可以使用 Minus 1 Trick 计算核的一个基(参见第 2.3.3 节)。或者,我们可以将非主元列(第 3 列和第 4 列)表示为主元列(第 1 列和第 2 列)的线性组合。第三列 a 3 \boldsymbol{a}_3 a3 等于 − 1 2 -\frac{1}{2} 21 倍的第二列 a 2 \boldsymbol{a}_2 a2。因此, 0 = a 3 + 1 2 a 2 \mathbf{0}=\boldsymbol{a}_3+\frac{1}{2} \boldsymbol{a}_2 0=a3+21a2。同样地,我们看到 a 4 = a 1 − 1 2 a 2 \boldsymbol{a}_4=\boldsymbol{a}_1-\frac{1}{2} \boldsymbol{a}_2 a4=a121a2,因此 0 = a 1 − 1 2 a 2 − a 4 \mathbf{0}=\boldsymbol{a}_1-\frac{1}{2} \boldsymbol{a}_2-\boldsymbol{a}_4 0=a121a2a4。总的来说,这给出了核(零空间)为

ker ⁡ ( Φ ) = span ⁡ [ [ 0 1 2 1 0 ] , [ − 1 1 2 0 1 ] ] (2.128) \operatorname{ker}(\Phi)=\operatorname{span}[\left[\begin{array}{l} 0 \\ \frac{1}{2} \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{c} -1 \\ \frac{1}{2} \\ 0 \\ 1 \end{array}\right]] \tag{2.128} ker(Φ)=span[ 02110 , 12101 ](2.128)


定理 2.24(秩-零化度定理)。对于 向量空间 V V V W W W 以及 线性映射 Φ : V → W \Phi: V \rightarrow W Φ:VW,有

dim ⁡ ( ker ⁡ ( Φ ) ) + dim ⁡ ( Im ⁡ ( Φ ) ) = dim ⁡ ( V ) . (2.129) \operatorname{dim}(\operatorname{ker}(\Phi))+\operatorname{dim}(\operatorname{Im}(\Phi))=\operatorname{dim}(V) . \tag{2.129} dim(ker(Φ))+dim(Im(Φ))=dim(V).(2.129)

秩-零化度定理也被称为线性映射的基本定理(Axler, 2015, 定理 3.22)。以下是定理 2.24 的直接推论:

  • 如果 dim ⁡ ( Im ⁡ ( Φ ) ) < dim ⁡ ( V ) \operatorname{dim}(\operatorname{Im}(\Phi)) < \operatorname{dim}(V) dim(Im(Φ))<dim(V),则 ker ⁡ ( Φ ) \operatorname{ker}(\Phi) ker(Φ) 是非平凡的,即核包含除了 0 V \mathbf{0}_V 0V 之外的元素,且 dim ⁡ ( ker ⁡ ( Φ ) ) ⩾ 1 \operatorname{dim}(\operatorname{ker}(\Phi)) \geqslant 1 dim(ker(Φ))1
  • 如果 A Φ \boldsymbol{A}_{\Phi} AΦ 是相对于某个有序基的 Φ \Phi Φ 的变换矩阵,并且 dim ⁡ ( Im ⁡ ( Φ ) ) < dim ⁡ ( V ) \operatorname{dim}(\operatorname{Im}(\Phi)) < \operatorname{dim}(V) dim(Im(Φ))<dim(V),则线性方程组 A Φ x = 0 \boldsymbol{A}_{\Phi} \boldsymbol{x} = \mathbf{0} AΦx=0 有无穷多解。
  • 如果 dim ⁡ ( V ) = dim ⁡ ( W ) \operatorname{dim}(V) = \operatorname{dim}(W) dim(V)=dim(W),则以下三者等价:
    Φ  是单射  ⟺ Φ  是满射  ⟺ Φ  是双射  \Phi \text{ 是单射 } \Longleftrightarrow \Phi \text{ 是满射 } \Longleftrightarrow \Phi \text{ 是双射 } Φ 是单射 Φ 是满射 Φ 是双射 
    因为 Im ⁡ ( Φ ) ⊆ W \operatorname{Im}(\Phi) \subseteq W Im(Φ)W
### 回答1: 数学对机器学习具有重要的指导作用。机器学习是一种利用计算机算法来解决问题并自动改进的方法。数学作为机器学习的基础,为我们提供了理论和工具,帮助我们理解和解决许多机器学习问题。 首先,线性代数机器学习中起着关键作用。线性代数涉及矩阵和向量的运算,而这些在机器学习中经常被用来表示数据和模型。通过线性代数,我们可以理解和操作数据集,推导和求解机器学习模型。 其次,微积分在机器学习中也非常重要。微积分涉及函数的导数和积分,而这些在优化和概率模型中扮演着重要角色。通过微积分,我们可以优化模型的参数,通过梯度下降算法来最小化损失函数,并进行机器学习模型的训练。 另外,概率论和统计学在机器学习中也扮演着重要角色。概率论帮助我们建立模型,量化不确定性,推断未知的数据。统计学则提供了评估模型性能和参数估计的方法。通过概率论和统计学,我们可以进行模型选择,避免过拟合或欠拟合,并对模型进行评估和比较。 最后,数学还有其他分支与机器学习密切相关,如图论、离散数学和信息论。图论帮助我们理解和建模复杂的关系网络。离散数学提供了解决离散问题的工具和方法。信息论则涉及消息的编码和传输,为我们提供了衡量数据的不确定性和相关性的度量方式。 总而言之,数学为机器学习提供了强大的理论基础和实用工具。它不仅帮助我们理解机器学习的原理和方法,还为我们解决实际问题提供了数学模型和算法。因此,数学是机器学习不可或缺的一部分。 ### 回答2: 数学对于机器学习非常重要。机器学习是一种通过自动学习和推理来改进系统性能的方法。它涉及到大量的数据处理、模型构建和预测分析。数学提供了机器学习的基础理论和方法。下面我会具体介绍数学在机器学习中的几个关键方面。 首先,线性代数机器学习中的基础。矩阵和向量是线性代数的基本工具,用于表示和处理数据。在机器学习中,数据通常以矩阵和向量的形式进行处理和运算。线性代数还提供了矩阵分解和特征值分析等重要技术,用于数据降维和模型优化。 其次,概率论和统计学是机器学习的核心概念。机器学习算法的设计和评估都依赖于统计学的基本方法。概率论使我们能够对不确定性进行建模,并通过统计学方法对数据进行分析和推断。这些技术可以帮助我们理解模型的性质,评估模型的性能,并做出有根据的决策。 另外,优化理论在机器学习中起着关键的作用。机器学习算法通常通过最小化或最大化某种损失函数来优化模型。优化理论提供了一系列数学方法,用于寻找最优解。这些方法可以帮助我们找到参数的最佳取值,进而提高模型的性能。 最后,微积分也是机器学习的重要工具。微积分用于解决连续域的优化问题,例如梯度下降法。梯度下降法是一种常用的优化算法,通过迭代地调整模型参数,使得损失函数逐渐减小。 总而言之,数学为机器学习提供了理论基础和实践工具。线性代数、概率论和统计学、优化理论以及微积分等数学方法在机器学习中发挥着重要的作用,帮助我们理解和解决实际问题。因此,学习数学对于理解和应用机器学习是非常重要的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值