线性代数及应用【上】：基变换、坐标变换、矩阵的变换、线性回归、最小二乘法、矩阵的四大基本空间

jjt12jt

已于 2022-05-27 01:57:19 修改

阅读量207

点赞数

文章标签：线性代数矩阵机器学习最小二乘法线性回归

于 2022-05-27 01:40:04 首次发布

本文链接：https://blog.csdn.net/jjt12jt/article/details/124995822

版权

线性代数及应用【上】

学习笔记打卡：

线性代数及应用【上】：
第一章矩阵变换
1.1 基变换与坐标变换
1.2 矩阵乘法
1.3 线性变换的矩阵
第二章矩阵的四大基本空间
应用一最小二乘法的线性拟合
3.0 向量范数
3.1 投影矩阵与投影向量
3.2 多元线性回归

线性代数及应用【下】：
第四章矩阵分解
4.0 特征值分解（EVD）
4.1 奇异值分解（SVD）
应用二主成分分析（PCA）
参考资料链接

第一章矩阵变换

设 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ 和 $\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}$ 是 $\mathbb{R}^n$ 的两组基，若一向量 $\boldsymbol{\xi}={x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n}$ ，或 $\boldsymbol{\xi}={y_1\boldsymbol{\beta}_1}+{y_2\boldsymbol{\beta}_2}+{\cdots}+{y_n\boldsymbol{\beta}_n}$ ，则称 $\boldsymbol{\xi}$ 在基 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ 下的坐标为 $\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ ，在基 $\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}$ 下的坐标为 $\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}$ .

因此在描述坐标时要强调在某组基下.

1.1 基变换与坐标变换

记 $\boldsymbol{A}=\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix}$ ， $\boldsymbol{B}=\begin{pmatrix}{\boldsymbol{\beta}_1}&{\boldsymbol{\beta}_2}&{\cdots}&{\boldsymbol{\beta}_n}\end{pmatrix}$ 分别为基 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ 和 $\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}$ 对应的矩阵. 定义由基底 $\boldsymbol{A}\to\boldsymbol{B}$ 的过渡矩阵 $\boldsymbol{P}=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix}$ ，则基变换公式为
$\boldsymbol{B}=\boldsymbol{A}\boldsymbol{P}$ 其中 $\boldsymbol{P}$ 可逆（其实 $\{{\boldsymbol{p}_1},\,{\boldsymbol{p}_2},\,{\cdots},\,{\boldsymbol{p}_n}\}$ 也构成一组基）. 对应的坐标变换公式为 $\boldsymbol{x}=\boldsymbol{P}\boldsymbol{y}$

1.2 矩阵乘法

考虑可逆线性变换 $\boldsymbol{Ax}=\boldsymbol{y}$ ，其中 $\boldsymbol{A}$ 可逆. 令 $\boldsymbol{A}$ $=\begin{pmatrix} {a_{11}}&{a_{12}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{\cdots}&{a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{n1}}&{a_{n2}}&{\cdots}&{a_{nn}}\\ \end{pmatrix}$ $=\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix}$ ，则 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ 构成一组基. 再规定一组自然基 $\{{\boldsymbol{e}_1},\,{\boldsymbol{e}_2},\,{\cdots},\,{\boldsymbol{e}_n}\}$ ，令 $\boldsymbol{E}\in \mathbb{R}^{n\times n}$ 为单位矩阵.
设向量 $\boldsymbol{\xi}$ 在自然基底下的坐标是 $\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ . 则 $\boldsymbol{Ax}=\begin{pmatrix}{x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n}\end{pmatrix}$ ，令 $\boldsymbol{\xi}'$ 在基 $\boldsymbol{A}$ 下的坐标是 $\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ . 所以 $\boldsymbol{Ax}$ 实现了将向量 $\boldsymbol{\xi}\to\boldsymbol{\xi}'$ 的映射，并保持了在各自基下的坐标均为 $\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ . 令 $\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}$ ，即 $\boldsymbol{Ax}=\begin{pmatrix}{y_1\boldsymbol{e}_1}+{y_2\boldsymbol{e}_2}+{\cdots}+{y_n\boldsymbol{e}_n}\end{pmatrix}$ ，所以 $\boldsymbol{\xi}'$ 对应在自然基下的坐标为 $\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}$ .

所以 $\boldsymbol{Ax}=\boldsymbol{y}$ 实现从自然基下向量 $\boldsymbol{\xi}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ 到新基 $\boldsymbol{A}$ 的坐标不变的映射 $\boldsymbol{\xi}'=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ ，且得到的 $\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}$ 是 $\boldsymbol{\xi}'$ 在自然基下的坐标.

例1	描述 $\mathbb{R}^2$ 下的旋转矩阵 $\boldsymbol{A}$ ，经变换 $\boldsymbol{Ax}=\boldsymbol{b}$ 把笛卡尔坐标下的列向量关于原点逆时针旋转 $\theta$ .
解	等价于将自然基底 $\{{\boldsymbol{i}},\,{\boldsymbol{j}}\}$ 逆时针旋转 $\theta$ 得到基 $\{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\}$ 令 $\boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}$ 当一个向量 $\boldsymbol{\xi}$ 在基 $\{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\}$ 下的坐标是 $\boldsymbol{x}$ ，经变换 $\boldsymbol{Ax}$ ，得到 $\boldsymbol{\xi}$ 在自然基底下的坐标 $\boldsymbol{b}$ . 求得 $\boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}=\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}$

例1

描述

\mathbb{R}^2

下的旋转矩阵

\boldsymbol{A}

，经变换

\boldsymbol{Ax}=\boldsymbol{b}

把笛卡尔坐标下的列向量关于原点逆时针旋转

\theta

解

等价于将自然基底

\{{\boldsymbol{i}},\,{\boldsymbol{j}}\}

逆时针旋转

\theta

得到基

\{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\}

令

\boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}

当一个向量

\boldsymbol{\xi}

在基

\{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\}

下的坐标是

\boldsymbol{x}

，经变换

\boldsymbol{Ax}

，得到

\boldsymbol{\xi}

在自然基底下的坐标

\boldsymbol{b}

.
求得

\boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}=\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}

不同维度变换： 考虑变换 $\begin{pmatrix}3&1&1\\1&1&1\\1&2&1\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}7\\5\\7\end{pmatrix}$ ，实现了 $\mathbb{R}^{3}\to \mathbb{R}^{3}$ 的映射. 使用非方阵能够将向量在不同维度转换，考虑不可逆变换 $\begin{pmatrix}3&1\\4&1\\5&2\end{pmatrix}\begin{pmatrix}1\\2\end{pmatrix}=\begin{pmatrix}5\\6\\9\end{pmatrix}$ ，实现了 $\mathbb{R}^{2}\to \mathbb{R}^{3}$ 的映射；变换 $\begin{pmatrix}2&1&1\\1&2&2\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}6\\9\end{pmatrix}$ ，实现了 $\mathbb{R}^{3}\to \mathbb{R}^{2}$ 的映射.

1.3 线性变换的矩阵

记线性空间为 $V_n$ ， $\boldsymbol{\xi}$ 是 $V_n$ 中的一个向量，设 $\mathscr{T}$ 是向量空间 $V_n$ 中的一个线性变换（可以看作是一个函数 $f$ 的推广)， $\mathscr{T}$ 能够将 $\boldsymbol{\xi}$ 变换到 $\boldsymbol{\xi}'$ ，记作
$\mathscr{T}(\boldsymbol{\xi})=\boldsymbol{\xi}'$ 选定一组基 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ ，在这组基下， $\boldsymbol{\xi}$ 的坐标是 $\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}$ ， $\boldsymbol{\xi}'$ 的坐标是 $\boldsymbol{x}'=\begin{pmatrix}{{x}_1}'\\{{x}_2}'\\{\vdots}\\{{x}_n}'\end{pmatrix}$ . 变换 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}'$ 将 $\boldsymbol{x}\to\boldsymbol{x}'$ ，则在这组基下 $\mathscr{T}$ 与 $\boldsymbol{A}$ 一一对应.
因此 $\boldsymbol{A}$ 从矩阵乘法的几何意义上看不仅可以表示一组基，在这里还可以看作线性变换 $\mathscr{T}$ 在基 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}$ 下的矩阵.
选定一组基 $\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}$ ，在这组基下， $\boldsymbol{\xi}$ 的坐标是 $\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}$ ， $\boldsymbol{\xi}'$ 的坐标是 $\boldsymbol{y}'=\begin{pmatrix}{{y}_1}'\\{{y}_2}'\\{\vdots}\\{{y}_n}'\end{pmatrix}$ . 变换 $\boldsymbol{B}\boldsymbol{y}=\boldsymbol{y}'$ 将 $\boldsymbol{y}\to\boldsymbol{y}'$ ，则 $\boldsymbol{B}$ 是 $\mathscr{T}$ 在基 $\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}$ 下的矩阵.

推导两个变换矩阵的关系. 定义由基底 $\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} \to {\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}}$ 的过渡矩阵 $\boldsymbol{P}$ ，则对应的坐标变换为 $\boldsymbol{x}=\boldsymbol{P}\boldsymbol{y}$ 和 $\boldsymbol{x}'=\boldsymbol{P}\boldsymbol{y}'$ ，则
$\begin{aligned} &\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}' \\\Rightarrow&\boldsymbol{A}(\boldsymbol{P}\boldsymbol{y})=\boldsymbol{P}\boldsymbol{y}' \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}' \end{aligned}$ 即得到
$\begin{aligned}&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}'=\boldsymbol{B}\boldsymbol{y} \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}=\boldsymbol{B} \end{aligned}$ 从上述公式看出，空间中同一个线性变换，在不同的基底下，用于描述的矩阵也是不同. 这些不同矩阵所描述的线性变换是相似的，他们也称之为相似矩阵，而过渡矩阵 $\boldsymbol{P}$ 联系了这些相似矩阵. 相似矩阵表示的线性变换为相似变换.

第二章矩阵的四大基本空间

在 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ 中，由 $\boldsymbol{Ax}=\boldsymbol{b}$ 得到列空间 $C(\boldsymbol{A})$ ，或称值域、像.

当 $\boldsymbol{Ax}=\boldsymbol{0}$ 时所有解的集合 $\boldsymbol{x}$ 得到零空间 $N(\boldsymbol{A}^{})$ ，或称核 $\text{Ker}(\boldsymbol{A}^{})$ .

由 $\boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{b}$ 或 $\boldsymbol{y}^\top \boldsymbol{A}=\boldsymbol{b}^\top$ 得到行空间 $C(\boldsymbol{A}^{\top})$ ，或记作 $R(\boldsymbol{A})$ ，或称余像.

当 $\boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0}$ 得到左零空间 $N(\boldsymbol{A}^{\top})$ ，或称上核.

其中， $C(\boldsymbol{A}^{\top})、N(\boldsymbol{A}^{}) \in \mathbb{R}^n$ ， $C(\boldsymbol{A})、N(\boldsymbol{A}^{\top}) \in \mathbb{R}^m$ .

矩阵基本子空间的维度和正交补 $V^\perp$ ：

$\dim C(\boldsymbol{A}^{\top})=\dim C(\boldsymbol{A})=\text{r}(\boldsymbol{A})=r$ .

因为 $\boldsymbol{x}^\top(\boldsymbol{A}^\top\boldsymbol{y})=(\boldsymbol{Ax})^\top\boldsymbol{y}=\boldsymbol{0}$ ， $N(\boldsymbol{A}^{})\cup C(\boldsymbol{A}^{\top})=\mathbb{R}^n$ ，所以零空间 $N(\boldsymbol{A}^{})$ 和行空间 $C(\boldsymbol{A}^{\top})$ 互为正交补，维度和是
$\dim C(\boldsymbol{A}^{\top})+\dim N(\boldsymbol{A})=r+(n-r)=n.$ 因为 $\boldsymbol{y}^\top(\boldsymbol{A x})=(\boldsymbol{A}^\top\boldsymbol{y})^\top\boldsymbol{x}=\boldsymbol{0}$ ， $N(\boldsymbol{A}^{\top})\cup C(\boldsymbol{A})=\mathbb{R}^m$ ，所以左零空间 $N(\boldsymbol{A}^{\top})$ 和列空间 $C(\boldsymbol{A})$ 互为正交补，维度和是
$\dim C(\boldsymbol{A})+\dim N(\boldsymbol{A}^{\top})=r+(m-r)=m.$ 矩阵空间的基： 初等行变换不改变行空间和零空间，初等列变换不改变列空间和左零空间. 对 $\boldsymbol{A}$ 作初等行变换，

1.行空间 $C(\boldsymbol{A}^{\top})$ 一组基由行向量的最大线性无关组构成，或行最简型的非零行向量.

2.零空间 $N(\boldsymbol{A}^{})$ 一组基由使 $\boldsymbol{A}$ 的列向量通过线性组合所得到的结果为 $\boldsymbol{0}$ 的向量构成，即方程 $\boldsymbol{Ax}=\boldsymbol{0}$ 的基础解系.

3.列空间 $C(\boldsymbol{A})$ 一组基由列向量的最大线性无关组构成，即独立主元列.

4.左零空间 $N(\boldsymbol{A}^{\top})$ 一组基由使 $\boldsymbol{A}$ 的行向量通过线性组合得到的结果为 $\boldsymbol{0}$ 的向量构成，即方程 $\boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0}$ 的基础解系.

例1	证明若 $\boldsymbol{A^\top Ax}=\boldsymbol{0}$ ，则 $\boldsymbol{Ax}=\boldsymbol{0}$ .
证一	由 $\boldsymbol{A^\top Ax}=\boldsymbol{0}$ 得 $\boldsymbol{Ax}$ 在 $\boldsymbol{A}$ 的左零空间 $N(\boldsymbol{A}^{\top})$ $\boldsymbol{Ax}$ 又在 $\boldsymbol{A}$ 的列空间 $C(\boldsymbol{A})$ 又 $N(\boldsymbol{A}^{\top})\perp C(\boldsymbol{A})$ 得 $\boldsymbol{Ax}=N(\boldsymbol{A}^{\top})\cap C(\boldsymbol{A})=\boldsymbol{0}$
证二	令 $f(\boldsymbol{x})=\boldsymbol{x^\top A^\top Ax}=\boldsymbol{x^\top 0}=\boldsymbol{0}=\boldsymbol{(Ax)^\top Ax}$ 得 $\boldsymbol{Ax}=\boldsymbol{0}$

例2	求矩阵 $\boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}$ 的列空间、零空间、行空间和左零空间.
解	记 $\boldsymbol{A}=\begin{pmatrix}{\boldsymbol{c}_1}&{\boldsymbol{c}_2}&{\boldsymbol{c}_3}&{\boldsymbol{c}_4}&\boldsymbol{c}_5\end{pmatrix}$ 化为行最简型得 $\boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}\sim\begin{pmatrix}1&0&-2&0&1\\0&1&1&0&0\\0&0&0&1&0\\0&0&0&0&0\end{pmatrix}=\begin{pmatrix}{\boldsymbol{b}_1}\\{\boldsymbol{b}_2}\\{\boldsymbol{b}_3}\\{\boldsymbol{b}_4}\end{pmatrix}$ $\boldsymbol{A}^\top$ 化为行最简型得 $\boldsymbol{A}^\top\sim\begin{pmatrix}1&0&0&0\\0&1&0&1\\0&0&1&1\\0&0&0&0\\0&0&0&0\end{pmatrix}$ 则 $\text{r}(\boldsymbol{A})=3$ 得 $C(\boldsymbol{A})=\text{Span}\{\boldsymbol{c}_1,\,\boldsymbol{c}_2,\,\boldsymbol{c}_4\}$ 得 $C(\boldsymbol{A}^{\top})=\text{Span}\{\boldsymbol{b}_1,\,\boldsymbol{b}_2,\,\boldsymbol{b}_3\}$ 考虑变换 $\boldsymbol{Ax}=\boldsymbol{0}$ 则 $\begin{cases} x_1&=2x_3-x_5\\x_2&=-x_3\\x_4&=0 \end{cases}$ 令 $\begin{pmatrix}x_3\\x_5\end{pmatrix}=\begin{pmatrix}1\\0\end{pmatrix}或\begin{pmatrix}0\\1\end{pmatrix}$ 得 $N(\boldsymbol{A}^{})=\text{Span}\{\begin{pmatrix}2\\-1\\1\\0\\0\end{pmatrix},\,\begin{pmatrix}-1\\0\\0\\0\\0\end{pmatrix}\}$ 同理考虑变换 $\boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0}$ 得 $N(\boldsymbol{A}^{\top})=\text{Span}\{\begin{pmatrix}0\\-1\\-1\\1\end{pmatrix}\}$

例2

求矩阵

\boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}

的列空间、零空间、行空间和左零空间.

解

记

\boldsymbol{A}=\begin{pmatrix}{\boldsymbol{c}_1}&{\boldsymbol{c}_2}&{\boldsymbol{c}_3}&{\boldsymbol{c}_4}&\boldsymbol{c}_5\end{pmatrix}

化为行最简型得

\boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}\sim\begin{pmatrix}1&0&-2&0&1\\0&1&1&0&0\\0&0&0&1&0\\0&0&0&0&0\end{pmatrix}=\begin{pmatrix}{\boldsymbol{b}_1}\\{\boldsymbol{b}_2}\\{\boldsymbol{b}_3}\\{\boldsymbol{b}_4}\end{pmatrix}

\boldsymbol{A}^\top

化为行最简型得

\boldsymbol{A}^\top\sim\begin{pmatrix}1&0&0&0\\0&1&0&1\\0&0&1&1\\0&0&0&0\\0&0&0&0\end{pmatrix}

则

\text{r}(\boldsymbol{A})=3

得

C(\boldsymbol{A})=\text{Span}\{\boldsymbol{c}_1,\,\boldsymbol{c}_2,\,\boldsymbol{c}_4\}

得

C(\boldsymbol{A}^{\top})=\text{Span}\{\boldsymbol{b}_1,\,\boldsymbol{b}_2,\,\boldsymbol{b}_3\}

考虑变换

\boldsymbol{Ax}=\boldsymbol{0}

则

\begin{cases} x_1&=2x_3-x_5\\x_2&=-x_3\\x_4&=0 \end{cases}

令

\begin{pmatrix}x_3\\x_5\end{pmatrix}=\begin{pmatrix}1\\0\end{pmatrix}或\begin{pmatrix}0\\1\end{pmatrix}

得

N(\boldsymbol{A}^{})=\text{Span}\{\begin{pmatrix}2\\-1\\1\\0\\0\end{pmatrix},\,\begin{pmatrix}-1\\0\\0\\0\\0\end{pmatrix}\}

同理考虑变换

\boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0}

得

N(\boldsymbol{A}^{\top})=\text{Span}\{\begin{pmatrix}0\\-1\\-1\\1\end{pmatrix}\}

应用一最小二乘法的线性拟合

3.0 向量范数

为比较向量的大小，引入向量范数，实现从向量到标量的映射. 定义 $L_p$ 范数：
$L_p=\lVert \boldsymbol{x}\rVert _p=\sqrt[p]{\sum_{i=1}^n x_i^p}$
$L_0$ 范数表示向量中非零元素的个数，不是真正意义上的范数.

$L_1$ 范数（曼哈顿范数、最小绝对误差、稀疏规则算子）即求向量各元素之和 $\begin{aligned}\lVert \boldsymbol{x}\rVert _1={\sum_{i=1}^n \lvert x_i\rvert}\end{aligned}$ . 通过 $L_1$ 可以实现特征的稀疏，去掉一些没有信息的特征. $L_1$ 范数可以度量两个向量间的差异，如绝对误差和
$\text{SAD}(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^n{\lvert x_{i}-y_{i}\rvert}$
$L_2$ 范数（欧几里得范数）用来做优化目标函数的正则化项，防止模型过拟合，提高泛化能力. $\begin{aligned}\lVert \boldsymbol{x}\rVert =\sqrt[]{\sum_{i=1}^n x_i^2}\end{aligned}$ 用于度量欧氏距离，则空间中两向量的距离或称均方误差
$\text{MSE}(\boldsymbol{x},\boldsymbol{y})=\sqrt[]{\sum_{i=1}^n (x_i-y_i)^2}$

3.1 投影矩阵与投影向量

设 $\boldsymbol{A}\in\mathbb{R}^{m\times n}$ ，考虑方程 $\boldsymbol{Aw}=\boldsymbol{y}$ 无解 $\,\Leftrightarrow\boldsymbol{y}$ 不在 $C(\boldsymbol{A})$ 中. 要在 $C(\boldsymbol{A})$ 中找到一个 $\hat{\boldsymbol{y}}$ ，才能使方程有解. 且使得 $\hat{\boldsymbol{y}}$ 与 $\boldsymbol{y}$ 的距离最小， $\hat{\boldsymbol{y}}$ 就是 $\boldsymbol{y}$ 在 $C(\boldsymbol{A})$ 的投影，从而得到 $\hat{\boldsymbol{w}}$ .

投影误差向量 $\boldsymbol{\varepsilon}=\boldsymbol{y}-\hat{\boldsymbol{y}}$ ，令 $L_2$ 范数即模长最小，可求导证明：
$\begin{aligned} \frac{\partial \lVert \boldsymbol{\varepsilon}\rVert ^2} {\partial \hat{\boldsymbol{w}}} &=\frac{\partial \lVert \boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}} \rVert ^2} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})^\top (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}^{\top} \boldsymbol{y}-\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{y}-\partial \boldsymbol{y}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}+\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}-\boldsymbol{A}^{\top} \boldsymbol{y} \\&=0 \end{aligned}$
由于 $(\boldsymbol{A}^\top\boldsymbol{A})^{-1}$ 可逆，解得 $\hat{\boldsymbol{w}}=(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y}$ ，此时取得 $\min\lVert\boldsymbol{\varepsilon}\rVert$ . 记 $\boldsymbol{P}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top$ 为向量向 $C(\boldsymbol{A})$ 的投影矩阵，投影向量是
$\hat{\boldsymbol{y}}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y}$

3.2 多元线性回归

设 $\mathbb{R}^m$ 内得一个超平面方程是 $y=w_1x_1+w_2x_2+\cdots+w_{m-1}x_{m-1}+b$ ， $m\geqslant 2$ ，所求参数为 $\boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\\vdots\\w_{m-1}\\b\end{pmatrix}\in\mathbb{R}^m$ . 现有 $k$ 个 $m$ 维向量，其坐标为 $\begin{pmatrix}{\boldsymbol{x}_1^\top}\\{\boldsymbol{x}_2^\top}\\{\vdots}\\{\boldsymbol{x}_k^\top}\end{pmatrix}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{y_1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{y_2}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{y_k}\\ \end{pmatrix}$ （行向量表示）.
为方便表示，令投影空间 $\boldsymbol{X}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{1}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{1}\\ \end{pmatrix}$ ，被投影向量 $\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\\vdots\\y_{k}\end{pmatrix}$ ，带入超平面方程得 $\boldsymbol{X}\boldsymbol{w}=\boldsymbol{y}$ ，即转化为求 $\boldsymbol{y}$ 在 $C(\boldsymbol{X})$ 下的投影 $\hat{\boldsymbol{y}}$ ：
$\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}$
此时 $\hat{\boldsymbol{y}}={\boldsymbol{X}}\hat{\boldsymbol{w}}$ .

最终得到拟合方程： $x_m=\hat{w}_1x_1+\hat{w}_2x_2+\cdots+\hat{w}_mx_{m}+\hat{b}$ .

例1	在 $\mathbb{R}^2$ 中有点 $(0,\,6)$ 、 $(1,\,0)$ 、 $(2,\,0)$ ，拟合直线 $y = w x + b$ .
解	令 $\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\end{pmatrix}=\begin{pmatrix}6\\0\\0\end{pmatrix}$ ， $\boldsymbol{X}=\begin{pmatrix}x_1&1\\x_2&1\\x_3&1\end{pmatrix}=\begin{pmatrix}0&1\\1&1\\2&1\end{pmatrix}$ ， $\boldsymbol{w}=\begin{pmatrix}w\\b\end{pmatrix}$ 转化为对于 $\boldsymbol{y}=\boldsymbol{X}\boldsymbol{w}$ ，求 $\boldsymbol{y}$ 在 $\boldsymbol{X}$ 下的投影所以 $\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}-3\\5\end{pmatrix}$ 即 $\hat{y}=-3x+5$

例1

在

\mathbb{R}^2

中有点

(0,\,6)

、

(1,\,0)

、

(2,\,0)

，拟合直线

y = w x + b

解

令

\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\end{pmatrix}=\begin{pmatrix}6\\0\\0\end{pmatrix}

，

\boldsymbol{X}=\begin{pmatrix}x_1&1\\x_2&1\\x_3&1\end{pmatrix}=\begin{pmatrix}0&1\\1&1\\2&1\end{pmatrix}

，

\boldsymbol{w}=\begin{pmatrix}w\\b\end{pmatrix}

转化为对于

\boldsymbol{y}=\boldsymbol{X}\boldsymbol{w}

，求

\boldsymbol{y}

在

\boldsymbol{X}

下的投影
所以

\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}-3\\5\end{pmatrix}

即

\hat{y}=-3x+5

例2	在 $\mathbb{R}^3$ 中有点 $(0,\,5,\,2)$ 、 $(1,\,0,\,1)$ 、 $(2,\,0,\,2)$ 、 $(1,\,1,\,1)$ ，拟合平面 $z=w_1x+x_2y+b$ .
解	令 $\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\\y_4\end{pmatrix}=\begin{pmatrix}2\\1\\2\\1\end{pmatrix}$ ， $\boldsymbol{X}=\begin{pmatrix}x_{11}&x_{12}&1\\x_{21}&x_{22}&1\\x_{31}&x_{32}&1\\x_{41}&x_{42}&1\end{pmatrix}=\begin{pmatrix}0&5&1\\1&0&1\\2&0&1\\1&1&1\end{pmatrix}$ ，要求 $\boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\b\end{pmatrix}$ 转化为对于 $\boldsymbol{y}=\boldsymbol{X}\boldsymbol{w}$ ，求 $\boldsymbol{y}$ 在 $\boldsymbol{X}$ 下的投影所以 $\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}\begin{aligned}&\frac{10}{9}\\&\frac{4}{9}\\-&\frac{5}{18}\end{aligned}\end{pmatrix}$ 即 $\begin{aligned}z=\frac{10}{9}y+\frac{2}{5}x-\frac{5}{18}\end{aligned}$

例2

在

\mathbb{R}^3

中有点

(0,\,5,\,2)

、

(1,\,0,\,1)

、

(2,\,0,\,2)

、

(1,\,1,\,1)

，拟合平面

z=w_1x+x_2y+b

解

令

\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\\y_4\end{pmatrix}=\begin{pmatrix}2\\1\\2\\1\end{pmatrix}

，

\boldsymbol{X}=\begin{pmatrix}x_{11}&x_{12}&1\\x_{21}&x_{22}&1\\x_{31}&x_{32}&1\\x_{41}&x_{42}&1\end{pmatrix}=\begin{pmatrix}0&5&1\\1&0&1\\2&0&1\\1&1&1\end{pmatrix}

，
要求

\boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\b\end{pmatrix}

转化为对于

\boldsymbol{y}=\boldsymbol{X}\boldsymbol{w}

，求

\boldsymbol{y}

在

\boldsymbol{X}

下的投影
所以

\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}\begin{aligned}&\frac{10}{9}\\&\frac{4}{9}\\-&\frac{5}{18}\end{aligned}\end{pmatrix}

即

\begin{aligned}z=\frac{10}{9}y+\frac{2}{5}x-\frac{5}{18}\end{aligned}

验证一下：例2Mathematica拟合代码：

y = ({	{2}, {1}, {2}, {1}  })
X = ({ 	{0, 5, 1}, 
		{1, 0, 1}, 
		{2, 0, 1},
        {1, 1, 1},  })
w = Inverse[(Transpose[X].X)].Transpose[X].y

Show[Plot3D[(10/9)*x + (4/9)*y - (5/18), {x, -2, 5}, {y, -2, 6}],
 Graphics3D[{Green, PointSize[.016], Point[{0, 5, 2}]}],
 Graphics3D[{Green, PointSize[.016], Point[{1, 0, 1}]}], 
 Graphics3D[{Green, PointSize[.016], Point[{2, 0, 2}]}],
 Graphics3D[{Green, PointSize[.016], Point[{1, 1, 1}]}]]

例2sklearn拟合代码：

# 导入线性回归模型
from sklearn import linear_model 
from sklearn.linear_model import LinearRegression
# 建立线性回归模型
reg = linear_model.LinearRegression() 
# 调用 fit 方法来拟合数组 (X，y)
reg.fit ([[0,5], [1,0], [2,0], [1,1]], [2, 1, 2, 1]) 
LinearRegression(copy_X=True, #直接在原始样本计算，而非其复制
                 fit_intercept=True, # 计算截距
                 n_jobs=1, # 与CPU计算有关
                 normalize=False) # 不标准化
# 线性模型系数w存储在coef_
# 截距存储在reg.intercept_
print("z=",reg.coef_[0],
      "x+",reg.coef_[1],
      "y",reg.intercept_)

# output：z=1.1111111111111112x+0.4444444444444444y-0.2777777777777777