线性代数及应用【上】:基变换、坐标变换、矩阵的变换、线性回归、最小二乘法、矩阵的四大基本空间

线性代数及应用【上】

学习笔记打卡:

线性代数及应用【上】:
第一章 矩阵变换
 1.1 基变换与坐标变换
 1.2 矩阵乘法
 1.3 线性变换的矩阵
第二章 矩阵的四大基本空间
应用一 最小二乘法的线性拟合
 3.0 向量范数
 3.1 投影矩阵与投影向量
 3.2 多元线性回归

线性代数及应用【下】:
第四章矩阵分解
 4.0 特征值分解(EVD)
 4.1 奇异值分解(SVD)
应用二 主成分分析(PCA)
参考资料链接



第一章 矩阵变换

  设 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn} { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,,βn} R n \mathbb{R}^n Rn的两组基,若一向量 ξ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n \boldsymbol{\xi}={x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n} ξ=x1α1+x2α2++xnαn,或 ξ = y 1 β 1 + y 2 β 2 + ⋯ + y n β n \boldsymbol{\xi}={y_1\boldsymbol{\beta}_1}+{y_2\boldsymbol{\beta}_2}+{\cdots}+{y_n\boldsymbol{\beta}_n} ξ=y1β1+y2β2++ynβn,则称 ξ \boldsymbol{\xi} ξ在基 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn}下的坐标为 ( x 1 x 2 ⋮ x n ) \begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} x1x2xn,在基 { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,,βn}下的坐标为 ( y 1 y 2 ⋮ y n ) \begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y1y2yn.

因此在描述坐标时要强调在某组基下.

1.1 基变换与坐标变换

  记 A = ( α 1 α 2 ⋯ α n ) \boldsymbol{A}=\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix} A=(α1α2αn) B = ( β 1 β 2 ⋯ β n ) \boldsymbol{B}=\begin{pmatrix}{\boldsymbol{\beta}_1}&{\boldsymbol{\beta}_2}&{\cdots}&{\boldsymbol{\beta}_n}\end{pmatrix} B=(β1β2βn)分别为基 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn} { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,,βn}对应的矩阵. 定义由基底 A → B \boldsymbol{A}\to\boldsymbol{B} AB的过渡矩阵 P = ( p 1 p 2 ⋯ p n ) \boldsymbol{P}=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix} P=(p1p2pn),则基变换公式为
B = A P \boldsymbol{B}=\boldsymbol{A}\boldsymbol{P} B=AP其中 P \boldsymbol{P} P可逆(其实 { p 1 ,   p 2 ,   ⋯ ,   p n } \{{\boldsymbol{p}_1},\,{\boldsymbol{p}_2},\,{\cdots},\,{\boldsymbol{p}_n}\} {p1,p2,,pn}也构成一组基). 对应的坐标变换公式为 x = P y \boldsymbol{x}=\boldsymbol{P}\boldsymbol{y} x=Py

1.2 矩阵乘法

  考虑可逆线性变换 A x = y \boldsymbol{Ax}=\boldsymbol{y} Ax=y,其中 A \boldsymbol{A} A可逆. 令 A \boldsymbol{A} A = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) =\begin{pmatrix} {a_{11}}&{a_{12}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{\cdots}&{a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{n1}}&{a_{n2}}&{\cdots}&{a_{nn}}\\ \end{pmatrix} =a11a21an1a12a22an2a1na2nann = ( α 1 α 2 ⋯ α n ) =\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix} =(α1α2αn),则 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn}构成一组基. 再规定一组自然基 { e 1 ,   e 2 ,   ⋯ ,   e n } \{{\boldsymbol{e}_1},\,{\boldsymbol{e}_2},\,{\cdots},\,{\boldsymbol{e}_n}\} {e1,e2,,en},令 E ∈ R n × n \boldsymbol{E}\in \mathbb{R}^{n\times n} ERn×n为单位矩阵.
  设向量 ξ \boldsymbol{\xi} ξ在自然基底下的坐标是 x = ( x 1 x 2 ⋮ x n ) \boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} x=x1x2xn. 则 A x = ( x 1 α 1 + x 2 α 2 + ⋯ + x n α n ) \boldsymbol{Ax}=\begin{pmatrix}{x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n}\end{pmatrix} Ax=(x1α1+x2α2++xnαn),令 ξ ′ \boldsymbol{\xi}' ξ在基 A \boldsymbol{A} A下的坐标是 x = ( x 1 x 2 ⋮ x n ) \boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} x=x1x2xn. 所以 A x \boldsymbol{Ax} Ax实现了将向量 ξ → ξ ′ \boldsymbol{\xi}\to\boldsymbol{\xi}' ξξ的映射,并保持了在各自基下的坐标均为 x = ( x 1 x 2 ⋮ x n ) \boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} x=x1x2xn. 令 y = ( y 1 y 2 ⋮ y n ) \boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y=y1y2yn,即 A x = ( y 1 e 1 + y 2 e 2 + ⋯ + y n e n ) \boldsymbol{Ax}=\begin{pmatrix}{y_1\boldsymbol{e}_1}+{y_2\boldsymbol{e}_2}+{\cdots}+{y_n\boldsymbol{e}_n}\end{pmatrix} Ax=(y1e1+y2e2++ynen),所以 ξ ′ \boldsymbol{\xi}' ξ对应在自然基下的坐标为 y = ( y 1 y 2 ⋮ y n ) \boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y=y1y2yn.

  所以 A x = y \boldsymbol{Ax}=\boldsymbol{y} Ax=y实现从自然基下向量 ξ = ( x 1 x 2 ⋮ x n ) \boldsymbol{\xi}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} ξ=x1x2xn到新基 A \boldsymbol{A} A的坐标不变的映射 ξ ′ = ( x 1 x 2 ⋮ x n ) \boldsymbol{\xi}'=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} ξ=x1x2xn,且得到的 y = ( y 1 y 2 ⋮ y n ) \boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y=y1y2yn ξ ′ \boldsymbol{\xi}' ξ在自然基下的坐标.

例1描述 R 2 \mathbb{R}^2 R2下的旋转矩阵 A \boldsymbol{A} A,经变换 A x = b \boldsymbol{Ax}=\boldsymbol{b} Ax=b把笛卡尔坐标下的列向量关于原点逆时针旋转 θ \theta θ.
等价于将自然基底 { i ,   j } \{{\boldsymbol{i}},\,{\boldsymbol{j}}\} {i,j}逆时针旋转 θ \theta θ得到基 { e 1 ′ ,   e 2 ′ } \{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\} {e1,e2}
A = ( e 1 ′ e 2 ′ ) \boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix} A=(e1e2)
当一个向量 ξ \boldsymbol{\xi} ξ在基 { e 1 ′ ,   e 2 ′ } \{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\} {e1,e2}下的坐标是 x \boldsymbol{x} x,经变换 A x \boldsymbol{Ax} Ax,得到 ξ \boldsymbol{\xi} ξ在自然基底下的坐标 b \boldsymbol{b} b.
求得 A = ( e 1 ′ e 2 ′ ) = ( cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ) \boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}=\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix} A=(e1e2)=(cosθsinθsinθcosθ)

  不同维度变换: 考虑变换 ( 3 1 1 1 1 1 1 2 1 ) ( 1 2 2 ) = ( 7 5 7 ) \begin{pmatrix}3&1&1\\1&1&1\\1&2&1\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}7\\5\\7\end{pmatrix} 311112111122=757,实现了 R 3 → R 3 \mathbb{R}^{3}\to \mathbb{R}^{3} R3R3的映射. 使用非方阵能够将向量在不同维度转换,考虑不可逆变换 ( 3 1 4 1 5 2 ) ( 1 2 ) = ( 5 6 9 ) \begin{pmatrix}3&1\\4&1\\5&2\end{pmatrix}\begin{pmatrix}1\\2\end{pmatrix}=\begin{pmatrix}5\\6\\9\end{pmatrix} 345112(12)=569,实现了 R 2 → R 3 \mathbb{R}^{2}\to \mathbb{R}^{3} R2R3的映射;变换 ( 2 1 1 1 2 2 ) ( 1 2 2 ) = ( 6 9 ) \begin{pmatrix}2&1&1\\1&2&2\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}6\\9\end{pmatrix} (211212)122=(69),实现了 R 3 → R 2 \mathbb{R}^{3}\to \mathbb{R}^{2} R3R2的映射.

1.3 线性变换的矩阵

  记线性空间为 V n V_n Vn ξ \boldsymbol{\xi} ξ V n V_n Vn中的一个向量,设 T \mathscr{T} T是向量空间 V n V_n Vn中的一个线性变换(可以看作是一个函数 f f f的推广), T \mathscr{T} T能够将 ξ \boldsymbol{\xi} ξ变换到 ξ ′ \boldsymbol{\xi}' ξ,记作
T ( ξ ) = ξ ′ \mathscr{T}(\boldsymbol{\xi})=\boldsymbol{\xi}' T(ξ)=ξ选定一组基 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn},在这组基下, ξ \boldsymbol{\xi} ξ的坐标是 x = ( x 1 x 2 ⋮ x n ) \boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} x=x1x2xn ξ ′ \boldsymbol{\xi}' ξ的坐标是 x ′ = ( x 1 ′ x 2 ′ ⋮ x n ′ ) \boldsymbol{x}'=\begin{pmatrix}{{x}_1}'\\{{x}_2}'\\{\vdots}\\{{x}_n}'\end{pmatrix} x=x1x2xn. 变换 A x = x ′ \boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}' Ax=x x → x ′ \boldsymbol{x}\to\boldsymbol{x}' xx,则在这组基下 T \mathscr{T} T A \boldsymbol{A} A一一对应.
因此 A \boldsymbol{A} A从矩阵乘法的几何意义上看不仅可以表示一组基,在这里还可以看作线性变换 T \mathscr{T} T在基 { α 1 ,   α 2 ,   ⋯ ,   α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,,αn}下的矩阵.
  选定一组基 { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,,βn},在这组基下, ξ \boldsymbol{\xi} ξ的坐标是 y = ( y 1 y 2 ⋮ y n ) \boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y=y1y2yn ξ ′ \boldsymbol{\xi}' ξ的坐标是 y ′ = ( y 1 ′ y 2 ′ ⋮ y n ′ ) \boldsymbol{y}'=\begin{pmatrix}{{y}_1}'\\{{y}_2}'\\{\vdots}\\{{y}_n}'\end{pmatrix} y=y1y2yn. 变换 B y = y ′ \boldsymbol{B}\boldsymbol{y}=\boldsymbol{y}' By=y y → y ′ \boldsymbol{y}\to\boldsymbol{y}' yy,则 B \boldsymbol{B} B T \mathscr{T} T在基 { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,,βn}下的矩阵.

  推导两个变换矩阵的关系. 定义由基底 { α 1 ,   α 2 ,   ⋯ ,   α n } → { β 1 ,   β 2 ,   ⋯ ,   β n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} \to {\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}} {α1,α2,,αn}{β1,β2,,βn} 的过渡矩阵 P \boldsymbol{P} P,则对应的坐标变换为 x = P y \boldsymbol{x}=\boldsymbol{P}\boldsymbol{y} x=Py x ′ = P y ′ \boldsymbol{x}'=\boldsymbol{P}\boldsymbol{y}' x=Py,则
A x = x ′ ⇒ A ( P y ) = P y ′ ⇒ P − 1 A P y = y ′ \begin{aligned} &\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}' \\\Rightarrow&\boldsymbol{A}(\boldsymbol{P}\boldsymbol{y})=\boldsymbol{P}\boldsymbol{y}' \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}' \end{aligned} Ax=xA(Py)=PyP1APy=y即得到
P − 1 A P y = y ′ = B y ⇒ P − 1 A P = B \begin{aligned}&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}'=\boldsymbol{B}\boldsymbol{y} \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}=\boldsymbol{B} \end{aligned} P1APy=y=ByP1AP=B  从上述公式看出,空间中同一个线性变换,在不同的基底下,用于描述的矩阵也是不同. 这些不同矩阵所描述的线性变换是相似的,他们也称之为相似矩阵,而过渡矩阵 P \boldsymbol{P} P联系了这些相似矩阵. 相似矩阵表示的线性变换为相似变换.

第二章 矩阵的四大基本空间

A ∈ R m × n \boldsymbol{A} \in \mathbb{R}^{m \times n} ARm×n中,由 A x = b \boldsymbol{Ax}=\boldsymbol{b} Ax=b得到列空间 C ( A ) C(\boldsymbol{A}) C(A),或称值域、像.

A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0时所有解的集合 x \boldsymbol{x} x得到零空间 N ( A ) N(\boldsymbol{A}^{}) N(A),或称核 Ker ( A ) \text{Ker}(\boldsymbol{A}^{}) Ker(A).

A ⊤ y = b \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{b} Ay=b y ⊤ A = b ⊤ \boldsymbol{y}^\top \boldsymbol{A}=\boldsymbol{b}^\top yA=b得到行空间 C ( A ⊤ ) C(\boldsymbol{A}^{\top}) C(A),或记作 R ( A ) R(\boldsymbol{A}) R(A),或称余像.

A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} Ay=0得到左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A),或称上核.

其中, C ( A ⊤ ) 、 N ( A ) ∈ R n C(\boldsymbol{A}^{\top})、N(\boldsymbol{A}^{}) \in \mathbb{R}^n C(A)N(A)Rn C ( A ) 、 N ( A ⊤ ) ∈ R m C(\boldsymbol{A})、N(\boldsymbol{A}^{\top}) \in \mathbb{R}^m C(A)N(A)Rm.

  矩阵基本子空间的维度和正交补 V ⊥ V^\perp V

   dim ⁡ C ( A ⊤ ) = dim ⁡ C ( A ) = r ( A ) = r \dim C(\boldsymbol{A}^{\top})=\dim C(\boldsymbol{A})=\text{r}(\boldsymbol{A})=r dimC(A)=dimC(A)=r(A)=r.

  因为 x ⊤ ( A ⊤ y ) = ( A x ) ⊤ y = 0 \boldsymbol{x}^\top(\boldsymbol{A}^\top\boldsymbol{y})=(\boldsymbol{Ax})^\top\boldsymbol{y}=\boldsymbol{0} x(Ay)=(Ax)y=0 N ( A ) ∪ C ( A ⊤ ) = R n N(\boldsymbol{A}^{})\cup C(\boldsymbol{A}^{\top})=\mathbb{R}^n N(A)C(A)=Rn,所以零空间 N ( A ) N(\boldsymbol{A}^{}) N(A)和行空间 C ( A ⊤ ) C(\boldsymbol{A}^{\top}) C(A)互为正交补,维度和是
dim ⁡ C ( A ⊤ ) + dim ⁡ N ( A ) = r + ( n − r ) = n . \dim C(\boldsymbol{A}^{\top})+\dim N(\boldsymbol{A})=r+(n-r)=n. dimC(A)+dimN(A)=r+(nr)=n.  因为 y ⊤ ( A x ) = ( A ⊤ y ) ⊤ x = 0 \boldsymbol{y}^\top(\boldsymbol{A x})=(\boldsymbol{A}^\top\boldsymbol{y})^\top\boldsymbol{x}=\boldsymbol{0} y(Ax)=(Ay)x=0 N ( A ⊤ ) ∪ C ( A ) = R m N(\boldsymbol{A}^{\top})\cup C(\boldsymbol{A})=\mathbb{R}^m N(A)C(A)=Rm,所以左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A)和列空间 C ( A ) C(\boldsymbol{A}) C(A)互为正交补,维度和是
dim ⁡ C ( A ) + dim ⁡ N ( A ⊤ ) = r + ( m − r ) = m . \dim C(\boldsymbol{A})+\dim N(\boldsymbol{A}^{\top})=r+(m-r)=m. dimC(A)+dimN(A)=r+(mr)=m.  矩阵空间的基: 初等行变换不改变行空间和零空间,初等列变换不改变列空间和左零空间. 对 A \boldsymbol{A} A作初等行变换,

  1.行空间 C ( A ⊤ ) C(\boldsymbol{A}^{\top}) C(A)一组基由行向量的最大线性无关组构成,或行最简型的非零行向量.

  2.零空间 N ( A ) N(\boldsymbol{A}^{}) N(A)一组基由使 A \boldsymbol{A} A的列向量通过线性组合所得到的结果为 0 \boldsymbol{0} 0的向量构成,即方程 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0的基础解系.

  3.列空间 C ( A ) C(\boldsymbol{A}) C(A)一组基由列向量的最大线性无关组构成,即独立主元列.

  4.左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A)一组基由使 A \boldsymbol{A} A的行向量通过线性组合得到的结果为 0 \boldsymbol{0} 0的向量构成,即方程 A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} Ay=0的基础解系.

例1证明若 A ⊤ A x = 0 \boldsymbol{A^\top Ax}=\boldsymbol{0} AAx=0,则 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0.
证一 A ⊤ A x = 0 \boldsymbol{A^\top Ax}=\boldsymbol{0} AAx=0
A x \boldsymbol{Ax} Ax A \boldsymbol{A} A的左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A)
A x \boldsymbol{Ax} Ax又在 A \boldsymbol{A} A的列空间 C ( A ) C(\boldsymbol{A}) C(A)
N ( A ⊤ ) ⊥ C ( A ) N(\boldsymbol{A}^{\top})\perp C(\boldsymbol{A}) N(A)C(A)
A x = N ( A ⊤ ) ∩ C ( A ) = 0 \boldsymbol{Ax}=N(\boldsymbol{A}^{\top})\cap C(\boldsymbol{A})=\boldsymbol{0} Ax=N(A)C(A)=0
证二 f ( x ) = x ⊤ A ⊤ A x = x ⊤ 0 = 0 = ( A x ) ⊤ A x f(\boldsymbol{x})=\boldsymbol{x^\top A^\top Ax}=\boldsymbol{x^\top 0}=\boldsymbol{0}=\boldsymbol{(Ax)^\top Ax} f(x)=xAAx=x0=0=(Ax)Ax
A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0
例2求矩阵 A = ( 1 3 1 4 1 2 7 3 9 2 1 5 3 1 1 1 2 0 8 1 ) \boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix} A=12113752133049181211的列空间、零空间、行空间和左零空间.
A = ( c 1 c 2 c 3 c 4 c 5 ) \boldsymbol{A}=\begin{pmatrix}{\boldsymbol{c}_1}&{\boldsymbol{c}_2}&{\boldsymbol{c}_3}&{\boldsymbol{c}_4}&\boldsymbol{c}_5\end{pmatrix} A=(c1c2c3c4c5)
化为行最简型得 A = ( 1 3 1 4 1 2 7 3 9 2 1 5 3 1 1 1 2 0 8 1 ) ∼ ( 1 0 − 2 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 ) = ( b 1 b 2 b 3 b 4 ) \boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}\sim\begin{pmatrix}1&0&-2&0&1\\0&1&1&0&0\\0&0&0&1&0\\0&0&0&0&0\end{pmatrix}=\begin{pmatrix}{\boldsymbol{b}_1}\\{\boldsymbol{b}_2}\\{\boldsymbol{b}_3}\\{\boldsymbol{b}_4}\end{pmatrix} A=1211375213304918121110000100210000101000=b1b2b3b4
A ⊤ \boldsymbol{A}^\top A化为行最简型得 A ⊤ ∼ ( 1 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 ) \boldsymbol{A}^\top\sim\begin{pmatrix}1&0&0&0\\0&1&0&1\\0&0&1&1\\0&0&0&0\\0&0&0&0\end{pmatrix} A10000010000010001100
r ( A ) = 3 \text{r}(\boldsymbol{A})=3 r(A)=3
C ( A ) = Span { c 1 ,   c 2 ,   c 4 } C(\boldsymbol{A})=\text{Span}\{\boldsymbol{c}_1,\,\boldsymbol{c}_2,\,\boldsymbol{c}_4\} C(A)=Span{c1,c2,c4}
C ( A ⊤ ) = Span { b 1 ,   b 2 ,   b 3 } C(\boldsymbol{A}^{\top})=\text{Span}\{\boldsymbol{b}_1,\,\boldsymbol{b}_2,\,\boldsymbol{b}_3\} C(A)=Span{b1,b2,b3}
考虑变换 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0
{ x 1 = 2 x 3 − x 5 x 2 = − x 3 x 4 = 0 \begin{cases} x_1&=2x_3-x_5\\x_2&=-x_3\\x_4&=0 \end{cases} x1x2x4=2x3x5=x3=0
( x 3 x 5 ) = ( 1 0 ) 或 ( 0 1 ) \begin{pmatrix}x_3\\x_5\end{pmatrix}=\begin{pmatrix}1\\0\end{pmatrix}或\begin{pmatrix}0\\1\end{pmatrix} (x3x5)=(10)(01)
N ( A ) = Span { ( 2 − 1 1 0 0 ) ,   ( − 1 0 0 0 0 ) } N(\boldsymbol{A}^{})=\text{Span}\{\begin{pmatrix}2\\-1\\1\\0\\0\end{pmatrix},\,\begin{pmatrix}-1\\0\\0\\0\\0\end{pmatrix}\} N(A)=Span{21100,10000}
同理考虑变换 A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} Ay=0
N ( A ⊤ ) = Span { ( 0 − 1 − 1 1 ) } N(\boldsymbol{A}^{\top})=\text{Span}\{\begin{pmatrix}0\\-1\\-1\\1\end{pmatrix}\} N(A)=Span{0111}

应用一 最小二乘法的线性拟合

3.0 向量范数

  为比较向量的大小,引入向量范数,实现从向量到标量的映射. 定义 L p L_p Lp范数:
L p = ∥ x ∥ p = ∑ i = 1 n x i p p L_p=\lVert \boldsymbol{x}\rVert _p=\sqrt[p]{\sum_{i=1}^n x_i^p} Lp=xp=pi=1nxip
   L 0 L_0 L0范数表示向量中非零元素的个数,不是真正意义上的范数.

   L 1 L_1 L1范数(曼哈顿范数、最小绝对误差、稀疏规则算子)即求向量各元素之和 ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ \begin{aligned}\lVert \boldsymbol{x}\rVert _1={\sum_{i=1}^n \lvert x_i\rvert}\end{aligned} x1=i=1nxi. 通过 L 1 L_1 L1可以实现特征的稀疏,去掉一些没有信息的特征. L 1 L_1 L1范数可以度量两个向量间的差异,如绝对误差和
SAD ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ \text{SAD}(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^n{\lvert x_{i}-y_{i}\rvert} SAD(x,y)=i=1nxiyi
   L 2 L_2 L2范数(欧几里得范数)用来做优化目标函数的正则化项,防止模型过拟合,提高泛化能力. ∥ x ∥ = ∑ i = 1 n x i 2 \begin{aligned}\lVert \boldsymbol{x}\rVert =\sqrt[]{\sum_{i=1}^n x_i^2}\end{aligned} x=i=1nxi2 用于度量欧氏距离,则空间中两向量的距离或称均方误差
MSE ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 \text{MSE}(\boldsymbol{x},\boldsymbol{y})=\sqrt[]{\sum_{i=1}^n (x_i-y_i)^2} MSE(x,y)=i=1n(xiyi)2

3.1 投影矩阵与投影向量

  设 A ∈ R m × n \boldsymbol{A}\in\mathbb{R}^{m\times n} ARm×n,考虑方程 A w = y \boldsymbol{Aw}=\boldsymbol{y} Aw=y无解   ⇔ y \,\Leftrightarrow\boldsymbol{y} y不在 C ( A ) C(\boldsymbol{A}) C(A)中. 要在 C ( A ) C(\boldsymbol{A}) C(A)中找到一个 y ^ \hat{\boldsymbol{y}} y^,才能使方程有解. 且使得 y ^ \hat{\boldsymbol{y}} y^ y \boldsymbol{y} y的距离最小, y ^ \hat{\boldsymbol{y}} y^就是 y \boldsymbol{y} y C ( A ) C(\boldsymbol{A}) C(A)的投影,从而得到 w ^ \hat{\boldsymbol{w}} w^​.

  投影误差向量 ε = y − y ^ \boldsymbol{\varepsilon}=\boldsymbol{y}-\hat{\boldsymbol{y}} ε=yy^,令 L 2 L_2 L2范数即模长最小,可求导证明:
∂ ∥ ε ∥ 2 ∂ w ^ = ∂ ∥ y − A w ^ ∥ 2 ∂ w ^ = ∂ ( y − A w ^ ) ⊤ ( y − A w ^ ) ∂ w ^ = ∂ ( y ⊤ y − ∂ w ^ ⊤ A ⊤ y − ∂ y ⊤ A w ^ + ∂ w ^ ⊤ A ⊤ A w ^ ) ∂ w ^ = A ⊤ A w ^ − A ⊤ y = 0 \begin{aligned} \frac{\partial \lVert \boldsymbol{\varepsilon}\rVert ^2} {\partial \hat{\boldsymbol{w}}} &=\frac{\partial \lVert \boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}} \rVert ^2} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})^\top (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}^{\top} \boldsymbol{y}-\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{y}-\partial \boldsymbol{y}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}+\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}-\boldsymbol{A}^{\top} \boldsymbol{y} \\&=0 \end{aligned} w^ε2=w^yAw^2=w^(yAw^)(yAw^)=w^(yyw^AyyAw^+w^AAw^)=AAw^Ay=0
  由于 ( A ⊤ A ) − 1 (\boldsymbol{A}^\top\boldsymbol{A})^{-1} (AA)1可逆,解得 w ^ = ( A ⊤ A ) − 1 A ⊤ y \hat{\boldsymbol{w}}=(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y} w^=(AA)1Ay,此时取得 min ⁡ ∥ ε ∥ \min\lVert\boldsymbol{\varepsilon}\rVert minε. 记 P = A ( A ⊤ A ) − 1 A ⊤ \boldsymbol{P}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top P=A(AA)1A为向量向 C ( A ) C(\boldsymbol{A}) C(A)的投影矩阵,投影向量是
y ^ = A ( A ⊤ A ) − 1 A ⊤ y \hat{\boldsymbol{y}}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y} y^=A(AA)1Ay

3.2 多元线性回归

  设 R m \mathbb{R}^m Rm内得一个超平面方程是 y = w 1 x 1 + w 2 x 2 + ⋯ + w m − 1 x m − 1 + b y=w_1x_1+w_2x_2+\cdots+w_{m-1}x_{m-1}+b y=w1x1+w2x2++wm1xm1+b m ⩾ 2 m\geqslant 2 m2,所求参数为 w = ( w 1 w 2 ⋮ w m − 1 b ) ∈ R m \boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\\vdots\\w_{m-1}\\b\end{pmatrix}\in\mathbb{R}^m w=w1w2wm1bRm. 现有 k k k m m m维向量,其坐标为 ( x 1 ⊤ x 2 ⊤ ⋮ x k ⊤ ) = ( x 11 x 12 ⋯ x 1 m − 1 y 1 x 21 x 22 ⋯ x 2 m − 1 y 2 ⋮ ⋮ ⋱ ⋮ ⋮ x k 1 x k 2 ⋯ x k m − 1 y k ) \begin{pmatrix}{\boldsymbol{x}_1^\top}\\{\boldsymbol{x}_2^\top}\\{\vdots}\\{\boldsymbol{x}_k^\top}\end{pmatrix}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{y_1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{y_2}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{y_k}\\ \end{pmatrix} x1x2xk=x11x21xk1x12x22xk2x1m1x2m1xkm1y1y2yk(行向量表示).
  为方便表示,令投影空间 X = ( x 11 x 12 ⋯ x 1 m − 1 1 x 21 x 22 ⋯ x 2 m − 1 1 ⋮ ⋮ ⋱ ⋮ ⋮ x k 1 x k 2 ⋯ x k m − 1 1 ) \boldsymbol{X}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{1}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{1}\\ \end{pmatrix} X=x11x21xk1x12x22xk2x1m1x2m1xkm1111,被投影向量 y = ( y 1 y 2 ⋮ y k ) \boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\\vdots\\y_{k}\end{pmatrix} y=y1y2yk,带入超平面方程得 X w = y \boldsymbol{X}\boldsymbol{w}=\boldsymbol{y} Xw=y,即转化为求 y \boldsymbol{y} y C ( X ) C(\boldsymbol{X}) C(X)下的投影 y ^ \hat{\boldsymbol{y}} y^
w ^ = ( X ⊤ X ) − 1 X ⊤ y \hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y} w^=(XX)1Xy
此时 y ^ = X w ^ \hat{\boldsymbol{y}}={\boldsymbol{X}}\hat{\boldsymbol{w}} y^=Xw^.

  最终得到拟合方程: x m = w ^ 1 x 1 + w ^ 2 x 2 + ⋯ + w ^ m x m + b ^ x_m=\hat{w}_1x_1+\hat{w}_2x_2+\cdots+\hat{w}_mx_{m}+\hat{b} xm=w^1x1+w^2x2++w^mxm+b^.

例1 R 2 \mathbb{R}^2 R2中有点 ( 0 ,   6 ) (0,\,6) (0,6) ( 1 ,   0 ) (1,\,0) (1,0) ( 2 ,   0 ) (2,\,0) (2,0),拟合直线 y = w x + b y=wx+b y=wx+b.
y = ( y 1 y 2 y 3 ) = ( 6 0 0 ) \boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\end{pmatrix}=\begin{pmatrix}6\\0\\0\end{pmatrix} y=y1y2y3=600 X = ( x 1 1 x 2 1 x 3 1 ) = ( 0 1 1 1 2 1 ) \boldsymbol{X}=\begin{pmatrix}x_1&1\\x_2&1\\x_3&1\end{pmatrix}=\begin{pmatrix}0&1\\1&1\\2&1\end{pmatrix} X=x1x2x3111=012111 w = ( w b ) \boldsymbol{w}=\begin{pmatrix}w\\b\end{pmatrix} w=(wb)
转化为对于 y = X w \boldsymbol{y}=\boldsymbol{X}\boldsymbol{w} y=Xw,求 y \boldsymbol{y} y X \boldsymbol{X} X下的投影
所以 w ^ = ( X ⊤ X ) − 1 X ⊤ y = ( − 3 5 ) \hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}-3\\5\end{pmatrix} w^=(XX)1Xy=(35)
y ^ = − 3 x + 5 \hat{y}=-3x+5 y^=3x+5
例2 R 3 \mathbb{R}^3 R3中有点 ( 0 ,   5 ,   2 ) (0,\,5,\,2) (0,5,2) ( 1 ,   0 ,   1 ) (1,\,0,\,1) (1,0,1) ( 2 ,   0 ,   2 ) (2,\,0,\,2) (2,0,2) ( 1 ,   1 ,   1 ) (1,\,1,\,1) (1,1,1),拟合平面 z = w 1 x + x 2 y + b z=w_1x+x_2y+b z=w1x+x2y+b.
y = ( y 1 y 2 y 3 y 4 ) = ( 2 1 2 1 ) \boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\\y_4\end{pmatrix}=\begin{pmatrix}2\\1\\2\\1\end{pmatrix} y=y1y2y3y4=2121
X = ( x 11 x 12 1 x 21 x 22 1 x 31 x 32 1 x 41 x 42 1 ) = ( 0 5 1 1 0 1 2 0 1 1 1 1 ) \boldsymbol{X}=\begin{pmatrix}x_{11}&x_{12}&1\\x_{21}&x_{22}&1\\x_{31}&x_{32}&1\\x_{41}&x_{42}&1\end{pmatrix}=\begin{pmatrix}0&5&1\\1&0&1\\2&0&1\\1&1&1\end{pmatrix} X=x11x21x31x41x12x22x32x421111=012150011111
要求 w = ( w 1 w 2 b ) \boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\b\end{pmatrix} w=w1w2b
转化为对于 y = X w \boldsymbol{y}=\boldsymbol{X}\boldsymbol{w} y=Xw,求 y \boldsymbol{y} y X \boldsymbol{X} X下的投影
所以 w ^ = ( X ⊤ X ) − 1 X ⊤ y = ( 10 9 4 9 − 5 18 ) \hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}\begin{aligned}&\frac{10}{9}\\&\frac{4}{9}\\-&\frac{5}{18}\end{aligned}\end{pmatrix} w^=(XX)1Xy=91094185
z = 10 9 y + 2 5 x − 5 18 \begin{aligned}z=\frac{10}{9}y+\frac{2}{5}x-\frac{5}{18}\end{aligned} z=910y+52x185

验证一下:例2Mathematica拟合代码:

y = ({	{2}, {1}, {2}, {1}  })
X = ({ 	{0, 5, 1}, 
		{1, 0, 1}, 
		{2, 0, 1},
        {1, 1, 1},  })
w = Inverse[(Transpose[X].X)].Transpose[X].y

Show[Plot3D[(10/9)*x + (4/9)*y - (5/18), {x, -2, 5}, {y, -2, 6}],
 Graphics3D[{Green, PointSize[.016], Point[{0, 5, 2}]}],
 Graphics3D[{Green, PointSize[.016], Point[{1, 0, 1}]}], 
 Graphics3D[{Green, PointSize[.016], Point[{2, 0, 2}]}],
 Graphics3D[{Green, PointSize[.016], Point[{1, 1, 1}]}]]

例2sklearn拟合代码:

# 导入线性回归模型
from sklearn import linear_model 
from sklearn.linear_model import LinearRegression
# 建立线性回归模型
reg = linear_model.LinearRegression() 
# 调用 fit 方法来拟合数组 (X,y)
reg.fit ([[0,5], [1,0], [2,0], [1,1]], [2, 1, 2, 1]) 
LinearRegression(copy_X=True, #直接在原始样本计算,而非其复制
                 fit_intercept=True, # 计算截距
                 n_jobs=1, # 与CPU计算有关
                 normalize=False) # 不标准化
# 线性模型系数w存储在coef_
# 截距存储在reg.intercept_
print("z=",reg.coef_[0],
      "x+",reg.coef_[1],
      "y",reg.intercept_)

# output:z=1.1111111111111112x+0.4444444444444444y-0.2777777777777777

拟合图像

上下篇参考资料链接

什么是主成分分析(PCA)_Hsuty

奇异值分解(SVD)原理总结_小白学视觉

ZhiHu_问答界面

矩阵论(二)相似变换_乌兰巴托海军

1.9 线性变换的矩阵(第1章 线性代数中的线性方程组)_泰克尼客

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值