漫步凸分析一——仿射集

最新推荐文章于 2023-07-22 10:12:59 发布

会敲键盘的猩猩

最新推荐文章于 2023-07-22 10:12:59 发布

阅读量6.9k

点赞数 7

分类专栏：漫步凸分析文章标签：仿射集超平面

漫步凸分析专栏收录该内容

9 篇文章 21 订阅

订阅专栏

本文中，用 $R$ 表示实数， $R^n$ 表示实 $n$ 元 $x=(\xi_1,\ldots,\xi_n)$ 的向量空间，除非特别指明，否则都是在 $R^n$ 中讨论。在 $R^n$ 中两个向量 $x,x^*$ 的内积表示成

⟨ x, x * ⟩ = ξ 1 ξ * 1 + \dots + ξ n ξ * n

$\langle x,x^*\rangle=\xi_1\xi_1^*+\cdots+\xi_n\xi_n^*$

符号 $A$ 既可以表示 $m\times n$ 的实矩阵 $A$ ，也可以表示从 $R^n$ 到 $R^m$ 相应的线性变换 $x\to Ax$ 。转置矩阵以及从 $R^m$ 到 $R^n$ 相应的伴随线性变换都用 $A^*$ 表示，所以大家需要知道下式的含义

⟨ A x, y * ⟩ = ⟨ x, A * y * ⟩

$\langle Ax,y^*\rangle=\langle x,A^*y^*\rangle$

(在表示向量的符号中，*不进行任何操作；考虑到矩阵乘法，所有向量都看做列向量。我们不断的使用向量符号是为了让大家熟悉它的二元性，也就说说，既可以将向量看做点，也可以将向量看成线性函数的 $n$ 元系数)所有证明过程都会用符号 $||$ 表示证明结束。

如果 $x,y$ 是 $R^n$ 中不同的点，那么形如下面的点集就叫做通过 $x,y$ 的直线

(1 - λ) x + λ y = x + λ (y - x), λ \in R

$(1-\lambda)x+\lambda y=x+\lambda(y-x),\quad \lambda\in R$

$M$ 是 $R^n$ 的一个子集，如果对于每一个 $x\in M,y\in M,\lambda\in R$ ，可得 $(1-\lambda)x+\lambda y\in M$ ，那么我们称这个子集为仿射集(affine set)。

空集 $\emptyset$ 和空间 $R^n$ 本身就是仿射集的极端例子，另外 $M$ 仅有一个孤立点的情况也满足定义。一般来讲，仿射集必须包含通过任意两个点的整条直线，直观印象是不存在弯曲的部分，就像空间中的一条直线或者一个平面。

仿射集正式的几何意义可能是从线性代数中 $R^n$ 子空间的定理发展来的，仿射集和子空间之间准确的对应关系可以用下面两个定理描述。

定理1.1 $R^n$ 的子空间是包含原点的仿射集。

证明：每个子空间包含0并且对于加法和标量乘法封闭，所以它是一个仿射集。

反过来，假设 $M$ 是一个包含0的仿射集。对于所有的 $x\in M,\lambda\in R$ ，我们有

λ x = (1 - λ) 0 + λ x \in M

$\lambda x=(1-\lambda)0+\lambda x\in M$

所以 $M$ 对标量乘法封闭。接下来，如果 $x\in M,y\in M$ ，我们有

1 2 (x + y) = 1 2 x + (1 - 1 2) y \in M

$\frac{1}{2}(x+y)=\frac{1}{2}x+(1-\frac{1}{2})y\in M$

因此

x + y = 2 (1 2 (x + y)) \in M

$x+y=2(\frac{1}{2}(x+y))\in M$

所以 $M$ 也对加法封闭，故它是一个子空间。 $||$

对于 $M\subset R^n,a\in R^n$ ，将 $M$ 平移 $a$ 定义为集合

M + a = {x + a | x \in M}

$M+a=\{x+a|x\in M\}$

仿射集平移后依然是仿射集，很容易验证这个结论。

对于仿射集 $M$ ，如果对于某个 $a,M=L+a$ ，那么我们说 $M$ 平行于仿射集 $L$ 。很明显，“ $M$ 与 $L$ 平行”是 $R^n$ 中仿射子集集类的一个等价关系，需要注意的是，这个平行定义和我们平常的平行定义是不同的，例如我们不能说一条线平行于一个平面，但可以说一条线平行于给定平面中的一条线，反之亦然。

定理1.2 每个非空仿射集 $M$ 平行于唯一的子空间 $L$ ， $L$ 由下式给出

L = M - M = {x - y | x \in M, y \in M}

$L=M-M=\{x-y|x\in M,y\in M\}$

证明：我们首先说明 $M$ 不能与两个不同的子空间平行。平行于 $M$ 的子空间 $L_1,L_2$ 互相是平行的，那么存在某个 $a$ 使得 $L_2=L_1+a$ 。因为 $0\in L_2$ ，所以 $-a\in L_1$ ，因此 $a\in L_1$ 。但是这样的话 $L_1\supset L_1+a=L_2$ ，同理我们可以得到 $L_2\supset L_1$ ，所以 $L_1=L_2$ ，这就建立了唯一性。接下来通过观察得到，对于所有 $y\in M,M-y=M+(-y)$ 是 $M$ 的一个平移操作，并且包含0，根据定理1.1以及刚刚的证明，这个仿射集肯定有唯一一个平行于 $M$ 的子空间 $L$ ，因为无论选择哪个 $y\in M$ ， $L=M-y$ 恒成立，所以我们得出 $L=M-M$ 。 $||$

我们将非空仿射集的维数定义为与它平行的子空间的维数，(按照惯例，将空集 $\emptyset$ 的维数定义为-1)那么维数为0,1 和2的仿射集自然就称为点，线和面。 $R^n$ 中 $(n-1)$ 维的仿射集叫做超平面，超平面非常重要，因为他们不仅表示 $n$ 维几何中的点，还具有其他含义。

超平面和其他仿射集也许能用线性函数和线性方程表示，我们可以从 $R^n$ 的正交理论来推断这种形式。回忆一下，根据定义， $x\perp y$ 意味着 $\langle x,y\rangle=0$ ，给定 $R^n$ 的一个子空间 $L$ ，使得 $x\perp L$ (即对于每一个 $y\in L$ ， $x\perp y$ 恒成立)的向量 $x$ 的集合叫做 $L$ 的正交补，用 $L^{\perp}$ 表示。当然，这是另一个子空间，并且

dim L + dim L ⊥ = n

$\dim L+\dim L^{\perp}=n$

$L^\perp$ 的正交补 $(L^\perp)^\perp$ 是 $L$ 。如果 $b_1,\ldots,b_m$ 是 $L$ 的一个基，那么 $x\perp L$ 等价于 $x\perp b_1,\ldots,x\perp b_m$ 。特别地， $R^n$ 的 $(n-1)$ 维子空间是一维子空间的正交补，一维子空间的基由一个非零向量 $b$ 构成，因此 $(n-1)$ 维子空间就是形如 $\{x|x\perp b\}$ 的集合，其中 $b\neq0$ 。超平面就是集合平移后的结果。但是

{x | x ⊥ b} + a = {x + a | ⟨ x, b ⟩ = 0} = {y | ⟨ y - a, b ⟩ = 0} = {y | ⟨ y, b ⟩ = β}

$\begin{align*} \{x|x\perp b\}+a &=\{x+a|\langle x,b\rangle=0\}\\ &=\{y|\langle y-a,b\rangle=0\}=\{y|\langle y,b\rangle=\beta\} \end{align*}$

其中 $\beta=\langle a,b\rangle$ ，由此得到超平面的一个特征，即定理1.3。

定理1.3 给定 $\beta\in R$ 和一个非零向量 $b\in R^n$ ，集合

H = {x | ⟨ x, b ⟩ = β}

$H=\{x|\langle x,b\rangle=\beta\}$

是 $R^n$ 中的一个超平面，而且每个超平面可能用这种方式表示。

在定理1.3中，向量 $b$ 叫做超平面 $H$ 的法向量， $H$ 的每个法向量要么是 $b$ 的正倍数，要么是负倍数。也就是说每个超平面有两边，就像 $R^2$ 中的一条直线或者 $R^3$ 中的一个平面，注意 $R^4$ 中的一个平面没有两边。

下一个定理将 $R^n$ 的仿射子集表示为含有 $n$ 个变量的联立线性方程组的解集。

定理1.4 给定 $b\in R^m$ 和 $m\times n$ 的实矩阵 $B$ ，集合

M = {x \in R n | B x = b}

$M=\{x\in R^n|Bx=b\}$

是 $R^n$ 中的仿射集，而且每个仿射集可能用这种方式表示。

证明：如果 $x\in M,y\in M,\lambda\in R$ ,那么对 $z=(1-\lambda)x+\lambda y$ ，我们有

B z = (1 - λ) B x + λ B y = (1 - λ) b + λ b = b

$Bz=(1-\lambda)Bx+\lambda By=(1-\lambda)b+\lambda b=b$

所以 $z\in M$ ，因此给定的 $M$ 是仿射集。

另一方面，考虑任意一个非空仿射集 $M$ 而不是 $R^n$ 本身，让 $L$ 是平行于 $M$ 的子空间，令 $b_1,\ldots,b_m$ 是 $L^\perp$ 的一组基，那么

L = (L ⊥) ⊥ = {x | x ⊥ b 1, \dots, x ⊥ b m} = {x | ⟨ x, b i ⟩ = 0, i = 1, \dots, m} = {x | B x = 0}

$\begin{align*} L &=(L^\perp)^\perp=\{x|x\perp b_1,\ldots,x\perp b_m\}\\ &=\{x|\langle x,b_i\rangle=0,\quad i=1,\ldots,m\}=\{x|Bx=0\} \end{align*}$

其中 $B$ 是 $m\times n$ 矩阵，它的行是 $b_1,\ldots,b_m$ 。因为 $M$ 平行于 $L$ ，所以存在一个 $a\in R^n$ 使得

M = L + a = {x | B (x - a) = 0} = {x | B x = b}

$M=L+a=\{x|B(x-a)=0\}=\{x|Bx=b\}$

其中 $b=Ba$ 。(仿射集 $R^n$ 和 $\emptyset$ 可以用定理中的形式表示，都令 $B$ 是 $m\times n$ 的零矩阵，在 $R^n$ 的情况下 $b=0$ ，在 $\emptyset$ 的情况下 $b\neq0$ ) $||$

观察定理1.4我们还可以得出

M = {x | ⟨ x, b i ⟩ = β i, i = 1, \dots, m} = \cap m i = 1 H i

$M=\{x|\langle x,b_i\rangle=\beta_i,i=1,\ldots,m\}=\cap_{i=1}^mH_i$

其中 $b_i$ 是 $B$ 的第 $i$ 行， $\beta_i$ 是 $b$ 的第 $i$ 个元素，

H i = {x | ⟨ x, b i ⟩ = β i}

$H_i=\{x|\langle x,b_i\rangle=\beta_i\}$

每个 $H_i$ 都是一个超平面( $b_i\neq0$ )，或者空集( $b_i=0,\beta_i\neq0$ )，或者 $R^n$ ( $b_i=0,\beta_i=0$ )。空集本身可能是两个不同平行超平面的交集，而 $R^n$ 可能是 $R^n$ 中空个超平面的交集，因此：

推论1.4.1 $R^n$ 中每个仿射子集是有限个超平面的交集。

定理1.4中的仿射集 $M$ 可以用向量 $b_1^{'},\ldots,b_n^{'}$ (他们组成 $B$ 的列) 表示，

M = {x = (ξ 1, \dots, ξ n) | ξ 1 b' 1 + \dots + ξ n b' n = b}

$M=\{x=(\xi_1,\ldots,\xi_n)|\xi_1b_1^{'}+\cdots+\xi_nb_n^{'}=b\}$

很明显，任意个仿射集的交集依然是仿射集，因此，给定任意 $S\subset R^n$ ，存在一个唯一的包含 $S$ 的最小仿射集(即，仿射集 $M$ 的交集，其满足 $M\supset S$ )，这个集合叫做 $S$ 的仿射包并用aff $\ S$ 表示。通过证明可以得出aff $\ S$ 由所有形如 $\lambda_1x_1+\cdots+\lambda_mx_m$ 的向量组成，其中 $x_i\in S,\lambda_1+\cdots+\lambda_m=1$ 。

对于 $m+1$ 个点 $b_0,b_1,\ldots,b_m$ 的集合，如果aff $\ \{b_0,b_1,\ldots,b_m\}$ 是 $m$ 维的，那么这些点就是仿射无关(affinely independent)。当然

aff {b 0, b 1, \dots, b m} = L + b 0

$\text{aff}\{b_0,b_1,\ldots,b_m\}=L+b_0$

其中

L = aff {0, b 1 - b 0, \dots, b m - b 0}

$L=\text{aff}\{0,b_1-b_0,\ldots,b_m-b_0\}$

利用定理1.1， $L$ 与包含 $b_1-b_0,\ldots,b_m-b_0$ 的子空间是一样的，当且仅当这些向量是线性无关时它的维数是 $m$ ，所以当且仅当 $b_1-b_0,\ldots,b_m-b_0$ 线性无关时 $b_0,b_1,\ldots,b_m$ 是仿射无关。

所有关于线性无关的事实都可以应用到仿射无关上。例如， $R^n$ 中 $m+1$ 个点仿射无关可以扩充到 $n+1$ 个点，一个 $m$ 维仿射集 $M$ 可以表示成 $m+1$ 个点的仿射包(将平行于 $M$ 子空间的基相应的点进行平移)

注意，如果 $M=\text{aff}\{b_0,b_1,\ldots,b_m\}$ ，与 $M$ 平行的子空间 $L$ 中的向量是 $b_1-b_0,\ldots,b_m-b_0$ 的线性组合，因此 $M$ 中的向量可以表示成如下形式

x = λ 1 (b 1 - b 0) + \dots + λ m (b m - b 0) + b 0

$x=\lambda_1(b_1-b_0)+\cdots+\lambda_m(b_m-b_0)+b_0$

即

x = λ 0 b 0 + λ 1 b 1 + \dots + λ m b m, λ 0 + λ 1 + \dots + λ m = 1

$x=\lambda_0b_0+\lambda_1b_1+\cdots+\lambda_mb_m,\quad \lambda_0+\lambda_1+\cdots+\lambda_m=1$

上面的表达式中，当且仅当 $b_0,b_1,\ldots,b_m$ 仿射无关时， $x$ 的系数是唯一的。这时候，作为参数的 $\lambda_0,\lambda_1,\ldots,\lambda_m$ 是 $M$ 的重心坐标。

从 $R^n$ 到 $R^m$ 的单值映射 $T:x\to Tx$ ，如果对于 $R^n$ 中的每一个 $x,y$ ， $\lambda\in R$ ，下式成立

T ((1 - λ) x + λ y) = (1 - λ) T x + λ T y

$T((1-\lambda)x+\lambda y)=(1-\lambda)Tx+\lambda Ty$

那么这个映射就称为仿射变换。

定理1.5 从 $R^n$ 到 $R^m$ 的仿射变换就是形如 $Tx=Ax+a$ 的映射 $T$ ，其中 $A$ 是一个线性变换并且 $a\in R^m$ 。

证明：如果 $T$ 是仿射的，令 $a=T0,Ax=Tx-a$ ，那么 $A$ 是一个仿射变换，并且 $A0=0$ 。类似于定理1.1，这个简单的论据说明 $A$ 实际是线性的。

反过来，如果 $Tx=Ax+a$ ，其中 $A$ 是线性的，我们可以得出

T ((1 - λ) x + λ y) = (1 - λ) A x + λ A y + a = (1 - λ) T x + λ T y

$T((1-\lambda)x+\lambda y)=(1-\lambda)Ax+\lambda Ay+a=(1-\lambda)Tx+\lambda Ty$

因此 $T$ 是仿射的。 $||$

仿射变换的逆(如果存在的话)还是仿射的。

如果从 $R^n$ 到 $R^m$ 的映射 $T$ 是一个仿射变换，那么对于 $R^n$ 中的每个仿射集 $M$ ，像集 $TM=\{Tx|x\in M\}$ 在 $R^m$ 中是仿射的。特别地，仿射变换保留仿射包：

aff (T S) = T (aff S)

$\text{aff}(TS)=T(\text{aff}\ S)$

定理1.6 令 $\{b_0,b_1,\ldots,b_m\}$ 和 $\{b_0^{'},b_1^{'},\ldots,b_m^{'}\}$ 是 $R^n$ 中仿射无关集，那么存在一个 $R^n$ 到自身的一一对应仿射变换 $T$ ，使得对于 $i=0,\ldots,m,Tb_i=b_i^{'}$ 。如果 $m=n$ ，那么 $T$ 是唯一的。

证明：如果需要的话，扩展给定的仿射无关集，我们可以将问题简化为 $m=n$ 的情况，然后，正如线性代数中的那样，存在一个 $R^n$ 到自身的一对一线性变换 $A$ ，将 $R^n$ 中的基 $b_1-b_0,\ldots,b_n-b_0$ 变成另一组基 $b_1^{'}-b_0^{'},\ldots,b_n^{'}-b_0^{'}$ ，这就得到了我们需要的仿射变换 $Tx=Ax+a$ ，其中 $a=b_0^{'}-Ab_0$ 。 $||$

推论 1.6.1 令 $M_1,M_2$ 是 $R^n$ 中任意两个维数相同的仿射集，那么存在一个 $R^n$ 到自身的一一对应的仿射变换 $T$ ，使得 $TM_1=M_2$ 。

证明：任何 $m$ 维仿射集可以表示成 $m+1$ 个仿射无关集的仿射包，并且在仿射变换下保留仿射包。 $||$

从 $R^n$ 到 $R^m$ 的仿射变换 $T$ 的图像是 $R^{n+m}$ 中的一个仿射子集，因为根据定理1.4，如果 $Tx=Ax+a$ ， $T$ 的图像由向量 $z=(x,y)$ 组成，其中 $x\in R^n,y\in R^m$ ，使得 $Bz=b$ ，其中 $b=-a$ ， $B$ 是从 $R^{n+m}$ 到 $R^m$ 的线性变换 $(x,y)\to Ax-y$ 。

特别地，从 $R^n$ 到 $R^m$ 的仿射变换 $x\to Ax$ 图像时包含 $R^{n+m}$ 原点的仿射集，因此它是 $R^{n+m}$ 的某个子空间 $L$ (定理1.1)， $L$ 的正交补如下

L ⊥ = {(x *, y *) | x * \in R n, y * \in R m, x * = - A * y *}

$L^{\perp}=\{(x^*,y^*)|x^*\in R^n,y^*\in R^m,x^*=-A^*y^*\}$

即 $L^{\perp}$ 是 $-A^*$ 的图像。事实上，当且仅当对每个 $z=(x,y),y=Ax$ ，下式

0 = ⟨ z, z * ⟩ = ⟨ x, x * ⟩ + ⟨ y, y * ⟩

$0=\langle z,z^*\rangle=\langle x,x^*\rangle+\langle y,y^*\rangle$

成立，那么 $z^*=(x^*,y^*)$ 属于 $L^{\perp}$ 。换句话说，当且仅当对于每个 $x\in R^n$ ，下式

0 = ⟨ x, x * ⟩ + ⟨ A x, y * ⟩ = ⟨ x, x * ⟩ + ⟨ x, A * y * ⟩ = ⟨ x, x * + A * y * ⟩

$0=\langle x,x^*\rangle+\langle Ax,y^*\rangle=\langle x,x^*\rangle+\langle x,A^*y^*\rangle=\langle x,x^*+A^*y^*\rangle$

成立， $(x^*,y^*)\in L^{\perp}$ 。这就意味着 $x^*+A^*y^*=0$ ，即 $x^*=-A^*y^*$

任何非平凡仿射集可以用多种方式表示成仿射变换的图像，令 $M$ 是 $R^N$ 中 $n$ 维仿射集，其中 $0<n<N$ 。首先，我们可以将 $M$ 表示成向量 $x=(\xi_1,\ldots,\xi_N)$ 的集合，并且坐标满足某个线性方程组

β i 1 ξ 1 + \dots + β i N ξ N = β i, i = 1, \dots, k .

$\beta_{i1}\xi_1+\cdots+\beta_{iN}\xi_N=\beta_i,\quad i=1,\ldots,k.$

根据定理1.4可知，这总是可能的。 $M$ 的维度为 $n$ 意味着系数矩阵 $B=(\beta_{ij})$ 零度为 $n$ 并且秩为 $m=N-n$ ，因此我们可以用 $\xi_{\bar 1},\ldots,\xi_{\bar n}$ 的形式求出 $\xi_{\overline{n+1}},\ldots,\xi_{\bar N}$ 的线性方程组，其中 $\bar 1,\ldots,\bar N$ 是 $1,\ldots,N$ 的某个排列，接下来就得到特定形式的方程组

ξ n + i ¯ ¯ ¯ ¯ = α i 1 ξ 1 ¯ + \dots + α i n ξ n ¯ + α i, i = 1, \dots, m .

$\xi_{\overline{n+i}}=\alpha_{i1}\xi_{\bar 1}+\cdots+\alpha_{in}\xi_{\bar n}+\alpha_i,\quad i=1,\ldots,m.$

再次给出了向量 $x=(\xi_1,\ldots,\xi_N)$ 属于 $M$ 的充分必要条件，这个方程组称为给定仿射集的Tucker表示。它将 $M$ 表示成某个从 $R^n$ 到 $R^m$ 仿射变换的图像，对于某个 $M$ ，只有有限多个Tucker表示(最多 $N!$ 个，低于 $M$ 中向量的 $m$ 个坐标变量 $\xi_i$ 可以用另外 $n$ 个坐标向量按某种顺序进行表示)。