矩阵论（零）：线性代数基础知识整理（4）——线性空间与线性变换

最新推荐文章于 2024-06-15 04:45:00 发布

exp(i)

最新推荐文章于 2024-06-15 04:45:00 发布

阅读量8.6k

点赞数 16

分类专栏：机器学习的数学基础文章标签：线性代数矩阵论机器学习

本文链接：https://blog.csdn.net/niu_123ming/article/details/82846096

版权

矩阵论专栏：专栏（文章按照顺序排序）

本篇博客的上篇是矩阵论（零）：线性代数基础知识整理（3）——矩阵的秩与向量组的秩，前面博客主要介绍了线性代数中的一些基本概念和基本方法，重点整理了秩的相关结论，本文主要整理线性空间与线性变换的相关内容。

本文主要有以下内容：

线性空间
- 线性空间与子空间
- 內积公理（向量的正交投影、Cauchy-Schwarz不等式）
- 范数公理（由内积诱导的范数、常用的向量范数、向量间距离）
- 线性空间的基
- 子空间的运算与关系
- 矩阵的內积与范数
线性变换

【说明】需要指出的是，严格来说，向量组并不是一个集合，向量组中可以有重复向量，例如向量组 $x, x, y$ ，其中 $x,y\in C^n$ ，而集合是不能有重复元素的。对于有限大小的向量组，我们总可以明确地把它写成向量的序列的形式（例如 $x, x, y$ ），但对于无限大小的向量组，我们没法明确地写出这个向量组，此时向量组到底是什么呢？实际上，很多线代教材没有明确地给出向量组的定义，很多人认为向量组就是向量的一个集合。按照严格的数学定义，向量组（a family of vectors）分为有序向量族（an ordered family of vectors）和无序向量族（a family of vectors）两种情形，其中无序向量族是给定线性空间上的一个加标族（indexed family），有序向量族是给定线性空间上的加标族以及该加标族的指标集上的一个良序（well order）。通常情况下，向量组的概念是指无序向量族，但也有不同的处理，例如丘维声的高等代数书中就认为向量组是有序的，此时 $x, x, y$ 和 $x, y, x$ 并不是同一个向量组。本文只讨论有限的向量组，且默认向量组是无序的、可含有重复向量。另外，当向量组中不含重复向量时，本文不区分向量组和向量的集合（换言之，直接用向量的集合来表示一个向量组）。
好奇的朋友可以参考如下资料：
math.stackexchange.com/questions/1375149
Indexed family - Wikipedia

线性空间

线性空间与子空间

线性空间的定义
设V是一个非空集合，F是一个数域，若V满足以下10条公理，则称V是F上的一个线性空间，简称线性空间（又称向量空间）：
- 在V的元素（称为向量，是一种抽象的概念）间定义了一种二元运算，叫做“加法”，满足加法运算是封闭的 $\forall{x,y}\in{V}, x+y\in{V}$
- 在数域F和V的元素间定义了一种代数运算，叫做“数量乘法”，简称数乘，满足数乘运算是封闭的 $\forall{k}\in{F},\forall{x}\in{V},kx\in{V}$
- 满足加法的交换律： $\forall{x,y}\in{V},x+y=y+x$
- 满足加法的结合律： $\forall{x,y,z}\in{V},(x+y)+z=x+(y+z)$
- 存在零元： $\exists{0}\in{V},\forall{x}\in{V},x+0=x$
- V中每个元素都有负元： $\forall{x}\in{V},\exists{-x}\in{V},x+(-x)=0$
- 满足数乘的单位率： $\forall{x}\in{V},1x=x$
- 满足数乘运算的结合律： $\forall{k,b}\in{F},\forall{x}\in{V},k(bx)=(kb)x$
- 满足数乘运算对向量的分配律： $\forall{k}\in{F},\forall{x,y}\in{V},k(x+y)=kx+ky$
- 满足数乘运算对数的分配律： $\forall{k,b}\in{F},\forall{x}\in{V},(k+b)x=kx+bx$
  当数域F是实数域时，称线性空间V是实线性空间；当F是复数域时，称V是复线性空间。易验证 $C^n$ 是一个复线性空间。
线性空间的性质
- 零元是唯一的
- 每个向量的负元是唯一的，由此可以定义向量间的减法： $x - y = x + (- y)$
- $0 x = 0, (- 1) x = - x, k 0 = 0$
- 若 $k x = 0$ ，则 $k=0\lor{}x=0$
线性子空间的定义与判定
- 定义：设W是线性空间V的一个非空子集，若W是线性空间，则称W是V的线性子空间
- 定理：设W是线性空间V的一个非空子集，则W是V的子空间的充要条件为W对V中的线性运算（加法和数乘）封闭
  
  例：关于x的齐次线性方程组 $Ax=0，A\in{}F^{m\times{n}}$ 的所有解向量 $x\in{F^n}$ 构成了 $F^n$ 的一个线性子空间，称为矩阵A的零空间或核空间，记为 $N (A)$ ，即 $N(A)=\{x\in{F^n}|Ax=0\}$ 。 $A^T$ 的零空间称为 $A$ 的左零空间。
- 定义：设 $a_1,a_2,\cdots,a_s$ 是V中的向量，这些向量的所有线性组合构成了V的一个线性子空间 $\{k_1a_1+\cdots+k_sa_s|k_1,\cdots,k_s\in{F}\}$ ，称为V的生成子空间，记作 $W=span\{a_1,a_2,\cdots,a_s\}$
  
  例：矩阵 $A\in{}F^{m\times{n}}$ 的所有列向量的线性组合构成了 $F^m$ 的一个生成子空间，常称为A的列空间，又叫A的值域，记为 $R (A)$ ，即 $R(A)=\{Ax|x\in{F^n}\}$ ；同样地， $A\in{}F^{m\times{n}}$ 的所有行向量的线性组合构成了 $F^n$ 的一个生成子空间，常称为A的行空间。注意， $A$ 的行向量就是 $A^T$ 的列向量，因此 $A$ 的行空间实际上就是 $R(A^T)$ 。

內积公理

设V是数域F上的线性空间，若在V的任意两个向量间定义了满足以下4条內积公理的二元运算 $V\times V\rightarrow F$ ，则称V是內积空间。若 $F = R$ ，则称V是实内积空间，或欧式空间（也有资料认为有限维的实内积空间才叫欧式空间）；若 $F = C$ ，则称V是复内积空间，或酉空间。

共轭对称性： $\langle x,y\rangle =\overline{\langle y,x\rangle }$
加性： $\langle x+y,z\rangle =\langle x,z\rangle +\langle y,z\rangle$
齐性： $\langle kx,y\rangle =k\langle x,y\rangle ,k\in{F}$
非负性/正定性： $\langle x,x\rangle \in{R}\land{}\langle x,x\rangle \geqslant{0}$ ，且 $\langle x,x\rangle =0$ 的充要条件为 $x = 0$

设 $F$ 为任一数域，在 $F^n$ 中定义向量的欧氏內积为 $\langle x,y\rangle =y^Hx$ ，易验证是满足內积公理的。欧氏內积是 $F^n$ 中最常用的向量內积，如无特别说明， $F^n$ 中的內积默认是欧氏內积。
注意上述内积公理的定义对任意数域F上的线性空间都是适用的，当数域 $F$ 为实数域或有理数域时，内积公理的第一条“共轭对称性”将自动退化为对称性。

从上面的公理可以推导出：

$\langle x,y+z\rangle =\langle x,y\rangle +\langle x,z\rangle$
$\langle x,ky\rangle =\bar{k}\langle x,y\rangle ,k\in{F}$
柯西施瓦兹不等式： $|\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }$ ，等号当且仅当x和y线性相关时取

下面我们证明柯西施瓦兹不等式这个內积空间中最基本的不等式。在此之前，有必要引入向量的正交投影这个概念，使读者更容易理解柯西施瓦兹不等式的几何意义。

向量的夹角:向量x和y的夹角余弦定义为 $cos(x,y)=\frac{\langle x,y\rangle}{||x||_2||y||_2}$
【注1】若在复內积空间中探讨，则余弦值为复数；若在实內积空间中探讨，则余弦值为实数
【注2】这个定义的几何意义其实在高中数学中有讲到，只不过当时 $x||_2$ 被称为向量的模，也就是向量的长度， $\langle x,y\rangle$ 是向量的点积 $x\bullet y$ 。在实数域下， $x\bullet y=x^Ty=y^Tx$ 。
向量正交：若x和y的夹角是 $90^\circ$ ，即 $c o s (x, y) = 0$ ， $\langle x,y\rangle =0$ ，则称x和y正交（垂直）
向量的正交投影
所谓向量的投影，就是将向量 $x$ 分解为两个向量的和 $x=x_1+x_2$ ，使得其中一个向量（例如 $x_1$ ）与一给定的非零向量 $y$ 共线。 $x_1$ 被称作是 $x$ 在 $y$ 上的一个投影。而正交投影是说， $x$ 在 $y$ 上的投影 $x_1$ 必须满足 $x_2=x-x_1$ 与 $y$ 正交。从几何上看（如下图），过向量 $x$ 的头部作向量 $y$ 的垂线，得到的投影 $x_1$ 就是 $x$ 到 $y$ 的正交投影，满足 $x_2=x-x_1$ （图中未标出）与图中的虚线平行。

正交投影 $x_1$ 的具体表达式是什么呢？我们可以通过下面的推理构造出来：
已知 $x_1$ 与 $y$ 共线，因此存在常数 $k\in F$ 使 $x_1=ky$ ， $x_2=x-x_1=x-ky$ 应与 $y$ 垂直/正交，因此必须满足 $\langle x-ky,y\rangle =0$ 。现在运用內积公理求出常数 $k$ ： $\langle x-ky,y\rangle =\langle x,y\rangle -\langle ky,y\rangle =\langle x,y\rangle -k\langle y,y\rangle =0$ ，因此 $k=\frac{\langle x,y\rangle }{\langle y,y\rangle }$ 。
这就得到了正交投影的具体表达式 $x_1=\frac{\langle x,y\rangle }{\langle y,y\rangle }y$ 。

柯西施瓦兹不等式的证明：

定理：设V是数域F上的内积空间，则 $\forall x, y\in V$ ，有 $|\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }$ ，当且仅当 $x$ 和 $y$ 线性相关时取等号

证明：
（法1）（实际上，柯西施瓦兹不等式是基于这样一个简单的事实：把向量 $x$ 正交投影到向量 $y$ 上，得到 $x$ 的分量 $\frac{\langle x,y\rangle }{\langle y,y\rangle }y$ ，则 $x$ 的另一个分量是 $z=x-\frac{\langle x,y\rangle }{\langle y,y\rangle }y$ ，有 $\langle z,z\rangle \geqslant 0$ ）
若 $y = 0$ ，显然结论成立。若 $y\neq 0$ ，令 $z=x-\lambda y$ ，其中 $\lambda=\frac{\langle x,y\rangle }{\langle y,y\rangle }$ ，则 $\begin{aligned}0&\leqslant \langle z,z\rangle \\&=\langle x,x\rangle -\langle x,\lambda y\rangle -\langle \lambda y,x\rangle +\langle \lambda y,\lambda y\rangle \\&=\langle x,x\rangle -\overline{\lambda}\langle x,y\rangle -\lambda\langle y,x\rangle +\lambda\overline{\lambda}\langle y,y\rangle \\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\\&=\langle x,x\rangle -\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }\end{aligned}$ 故 $|\langle x,y\rangle |\leqslant{}\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }$ ，显然当且仅当 $z = 0$ 即 $x=\lambda y$ 时取等号，得证。

（法2）
引入实值函数 $f(k)=\langle x+ky,x+ky\rangle ,k\in C$ ，记 $k=a+bi,a,b\in R$ ，其中 $i$ 是虚数单位， $g(a,b)=f(k)=\langle x+(a+bi)y,x+(a+bi)y\rangle$ 。
当 $x$ 和 $y$ 线性无关时，必对 $\forall k\neq 0$ ，有 $x+ky\neq 0$ ，故由內积公理知 $g(a,b)\gt 0$ 。 $\begin{aligned}g(a,b)&=\langle x+(a+bi)y,x+(a+bi)y\rangle \\&=\langle x,x\rangle +|a+bi|^2\langle y,y\rangle +(a-bi)\langle x,y\rangle +(a+bi)\overline{\langle x,y\rangle }\\&=(a^2+b^2)\langle y,y\rangle +a(\langle x,y\rangle +\overline{\langle x,y\rangle })-bi(\langle x,y\rangle -\overline{\langle x,y\rangle })+\langle x,x\rangle \end{aligned}$
$\frac{\partial g}{\partial a}=2a\langle y,y\rangle +\langle x,y\rangle +\overline{\langle x,y\rangle }=2a\langle y,y\rangle +2Re\{\langle x,y\rangle \}$
$\frac{\partial g}{\partial b}=2b\langle y,y\rangle -i(\langle x,y\rangle -\overline{\langle x,y\rangle })=2b\langle y,y\rangle +2Im\{\langle x,y\rangle \}$
hessian矩阵 $\begin{bmatrix}\frac{\partial^2 g}{\partial^2 a}&\frac{\partial^2 g}{\partial a\partial b}\\\frac{\partial^2 g}{\partial b\partial a}&\frac{\partial^2 g}{\partial^2 b}\end{bmatrix}=2\begin{bmatrix}\langle y,y\rangle &0\\0&\langle y,y\rangle \end{bmatrix}$ 是对称半正定的，故 $g$ 是 $R^2$ 上的凸函数。令 $\frac{\partial g}{\partial a}=0$ 且 $\frac{\partial g}{\partial b}=0$ 得极值点 $a_0=-\frac{Re\{\langle x,y\rangle \}}{\langle y,y\rangle }$ ， $b_0=-\frac{Im\{\langle x,y\rangle \}}{\langle y,y\rangle }$ ，故 $g$ 的最小值为 $\begin{aligned}g(a_0,b_0)&=\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }-\frac{2Re^2\{\langle x,y\rangle \}}{\langle y,y\rangle }-\frac{2Im^2\{\langle x,y\rangle \}}{\langle y,y\rangle }+\langle x,x\rangle \\&=-\frac{|\langle x,y\rangle |^2}{\langle y,y\rangle }+\langle x,x\rangle \\&\gt 0\end{aligned}$ 即 $|\langle x,y\rangle |\lt \sqrt{\langle x,x\rangle \langle y,y\rangle }$ 。
当 $x$ 和 $y$ 线性相关，即存在 $t\neq 0$ 使得 $x = t y$ 时，易验证 $|\langle x,y\rangle |= \sqrt{\langle x,x\rangle \langle y,y\rangle }$ 。证毕。

【注】对复数 $x$ ， $Re\{x\}$ 是 $x$ 的实部， $Im\{x\}$ 是 $x$ 的虚部。法1和法2其实是从相同的角度出发，但用了不同的手段，法1是根据几何意义直截了当地构造出了辅助函数 $f(k)=\langle x+ky,x+ky\rangle ,k\in C$ 的极值点（垂直距离最短），法2是先利用分析学方法对辅助函数的性质做一刻化，然后得到极值点。更多证法请参考维基百科。

范数公理

在数域F上的线性空间 $V$ 中，若给每个向量赋予唯一的一个实数，当该实数满足如下四条范数公理时，称给每个向量定义了范数，并称 $V$ 是赋范空间：

非负性/正定性： $||x||\geqslant{0}$ ，且 $∣ ∣ x ∣ ∣ = 0$ 的充要条件是 $x = 0$
齐次性： $||cx||=|c|||x||,c\in{F}$
三角不等式： $||x+y||\leqslant{}||x||+||y||$

线性空间中內积与范数的关系（内积诱导的范数）：

定理：设 $\langle \bullet,\bullet\rangle$ 是内积空间 $V$ 上的內积，则 $f(x)=\sqrt{\langle x,x\rangle}$ 可作为 $V$ 上的范数（称 $\sqrt{\langle x,x\rangle}$ 是由内积诱导的范数）

证明：
由內积的正定性可直接得 $f$ 的正定性。
$\forall c\in F$ ， $f(cx)=\sqrt{\langle cx,cx\rangle }=\sqrt{\bar cc\langle x,x\rangle }=\sqrt{|c|^2\langle x,x\rangle }=|c|\sqrt{\langle x,x\rangle }=|c|f(x)$ ，故 $f$ 满足齐次性。
由內积的柯西施瓦兹不等式，得 $Re\{\langle x,y\rangle \}\leqslant |\langle x,y\rangle |\leqslant\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }$ ，故 $\begin{aligned}f(x+y)&=\sqrt{\langle x+y,x+y\rangle }\\&=\sqrt{\langle x,x\rangle +\langle y,y\rangle +2Re\{\langle x,y\rangle \}}\\&\leqslant\sqrt{\langle x,x\rangle +\langle y,y\rangle +2\sqrt{\langle x,x\rangle }\sqrt{\langle y,y\rangle }}\\&=\sqrt{\langle x,x\rangle }+\sqrt{\langle y,y\rangle }\\&=f(x)+f(y)\end{aligned}$ 故 $f$ 满足三角不等式。综上， $f$ 可作为 $V$ 上的一种范数。

【注】这一定理说明，任意内积空间都可以定义范数（由内积诱导的范数），使其成为一个赋范空间。（不严谨的说法是，任意内积空间都是赋范空间）

内积诱导的范数的性质：

勾股定理
若 $\langle x,y\rangle =0$ ，则 $x+y||^2=||x||^2+||y||^2$
平行四边形公式
$x+y||^2+||x-y||^2=2(||x||^2+||y||^2)$
极化恒等式（内积诱导的范数可以表达出内积本身）
在实数域下， $\langle x,y\rangle =\frac{1}{4}(||x+y||^2-||x-y||^2)$
在复数域下， $\langle x,y\rangle =\frac{1}{4}(||x+y||^2-||x-y||^2+i||x+iy||^2-i||x-iy||^2)$ （ $i$ 是虚数单位）

$R^m$ 或 $C^m$ 中常用的向量范数

$l_1$ 范数： $||x||_1=\sum_{i=0}^m|x_i|$
$l_2$ 范数（又称Frobenius范数、欧几里得范数等）： $||x||_2=\sqrt{\sum_{i=0}^m|x_i|^2}$ ，即 $||x||_2=\sqrt{x^Hx}$
$l_p$ 范数： $||x||_p=\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}},p\in{R}\land{}p\geqslant{1}$
$l_{\infty}$ 范数：当 $l_p$ 范数中的 $p$ 趋于正无穷时，其极限是存在的，称该极限为 $l_{\infty}$ 范数。现在证明该极限是存在的：

证明：
记 $S=max\{|x_1|,|x_2|,\cdots,|x_m|\}$ 。 $S=(S^p)^\frac{1}{p}\leqslant{}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}\leqslant{}\bigl(mS^p\bigr)^\frac{1}{p}=m^{\frac{1}{p}}S$ $\lim_{p\to{+\infty}}S=\lim_{p\to{+\infty}}m^{\frac{1}{p}}S=S$ 由夹逼定理 $\lim_{p\to{+\infty}}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}=S=max(|x_1|,|x_2|,\cdots,|x_m|)$ 因此我们定义 $||x||_\infty=max(|x_1|,|x_2|,\cdots,|x_m|)$ 。
向量间的距离：常采用两向量差的 $l_p$ 范数作为这两个向量间的距离的定义，以下是各个范数定义出的距离的名称。
- 欧几里得距离（欧式距离）： $d(x,y)=||x-y||_2$
- 曼哈顿距离： $d(x,y)=||x-y||_1$
- 切比雪夫距离： $d(x,y)=||x-y||_\infty$
向量间的距离的性质（根据范数公理得出）：
- 对称性 $d (x, y) = d (y, x)$
- 非负性 $d(x,y)\geqslant{0}$ ，等号当且仅当x=y时取
- 三角不等式 $d(x,y)\leqslant{}d(x,z)+d(z,y)$

线性空间的基（仅限有限维空间）

对数域F上一有限维线性空间V，n维向量组的线性无关、极大无关组等概念都可以直接搬过来用。实际上线性空间可以看做一个特殊的向量组（不过不一定是n维向量组，这里的向量应该抽象地理解，实际上就是指V这一集合中的元素），特殊在它对线性运算具有封闭性，这也导致它要么是只含一个向量的向量组（零元），要么是含有无穷多向量的向量组。正因为线性空间这样的特殊性，需要引入一些新的概念来描述它。

定义：若V中的线性无关向量组可以含任意多个向量，则称V是无限维空间，否则称V是有限维空间
定义：若V的一个线性无关向量组满足任意V中向量都可由该组线性表示，则称该线性无关组是V的一组基
定理：有限维空间V必有极大无关组，V的所有极大无关组都含有相同数目的向量，都可以作为V的一组基。定义V的极大无关组所含向量的个数为V的维数，记作 $\dim\ V$ 。对于n维线性空间V，V中任意n个线性无关的向量都可构成V的一组基。V中任意向量都可由V的一组基唯一地线性表示。
定义：设有限维空间V的一个基向量组为 $a_1,a_2,\cdots,a_n$ ，任意V中向量x可由它唯一地线性表示，即存在唯一的向量z使得 $x=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z$ ，称z是x在该基下的坐标向量，简称坐标

【注】 $\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}$ 不是通常意义的矩阵，这里只是引用矩阵的记法以及矩阵与向量的乘法来简洁地表达x与z的关系。
定义：设有限维空间V的两组基分别为 $a_1,a_2,\cdots,a_n$ 和 $b_1,b_2,\cdots,b_n$ ，则 $b_i$ 可由 $a_1,a_2,\cdots,a_n$ 线性表示，即存在 $z_i\in{F^n}$ 使得 $b_i=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z_i$ ，记矩阵 $Z=\begin{bmatrix}z_1&z_2&\cdots&z_n\end{bmatrix}$ ，则有 $\begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}Z$ ，称Z是从基 $a_1,a_2,\cdots,a_n$ 到基 $b_1,b_2,\cdots,b_n$

最低0.47元/天解锁文章

exp(i)

关注

16
点赞
踩
67

收藏

觉得还不错? 一键收藏
6
评论
矩阵论（零）：线性代数基础知识整理（4）——线性空间与线性变换

本篇博客是线性代数的基础理论知识下篇，限于篇幅，不会把所有定义都罗列出来，而是将整理的重点放在定理和结论上（当然有些必要的定义还是会说明的），对于最基础的概念（如什么是矩阵、行列式的定义及基本计算方法、矩阵的基本运算等等）不清楚的童鞋可以参考线性代数常用基本知识整理。本篇博客的上篇是矩阵论(零)：线性代数基础知识整理（上）。为更具一般性，讨论复矩阵和复向量，向量如无特别说明均为列向量本篇博客...
复制链接

扫一扫