直线(Lines)和线段(line segments)
我们令
x
1
x_1
x1、
x
2
x_2
x2为
R
n
\mathbf{R}^n
Rn空间中的两个不重合的点
x
1
≠
x
2
x_1 \neq x_2
x1=x2,那么直线和线段都可以用下式统一地表示
y
=
θ
x
1
+
(
1
−
θ
)
x
2
y = \theta x_1 + (1-\theta)x_2
y=θx1+(1−θ)x2特别地
直
线
:
θ
∈
[
0
,
1
]
直线 : \theta \in [0,1]
直线:θ∈[0,1]
线
段
:
θ
∈
R
线段 :\theta \in \mathbf{R}
线段:θ∈R
为了说明这个式子隐含的意义,我们对其稍作变形
y
=
x
2
+
θ
(
x
1
−
x
2
)
y = x_2 + \theta (x_1 - x_2)
y=x2+θ(x1−x2) 现在我们考虑考虑一个二维(
R
2
\mathbf{R}^2
R2)的情形,这里的
x
1
x_1
x1、
x
2
x_2
x2我们看作在
R
2
\mathbf{R}^2
R2空间上的向量。
这个意义是显然的,
y
y
y走过了
θ
\theta
θ倍的
x
1
−
x
2
x_1 - x_2
x1−x2长度,当
θ
=
1
\theta = 1
θ=1时,
y
y
y恰好称为一条连接
x
1
x
2
x_1\;\; x_2
x1x2的线段,而当
θ
\theta
θ取遍
R
\mathbf{R}
R的时候,
y
y
y将向两端无限延展成为一条直线。
仿射集(Affine sets)
仿射集合的定义是简单而抽象的:
若过集合
C
⊆
R
n
\mathbf{C}\subseteq \mathbf{R}^n
C⊆Rn中任意两个点的直线仍在集合
C
\mathbf{C}
C中,称
C
\mathbf{C}
C为仿射集。
利用直线的知识,我们可以用数学的语言描述这个集合
C
\mathbf{C}
C
∀
x
1
,
x
2
∈
C
,
θ
∈
R
,
θ
x
1
+
(
1
−
θ
)
x
2
∈
R
\forall x_1,x_2 \in \mathbf{C},\theta \in \mathbf{R},\theta x_1+(1-\theta )x_2 \in \mathbf{R}
∀x1,x2∈C,θ∈R,θx1+(1−θ)x2∈R
仿射组合(Affine combination)
仿射集合的概念可以扩充到
k
k
k个点的情况
若
:
θ
1
+
θ
2
+
⋯
θ
k
=
1
,
x
1
,
.
.
.
,
x
k
∈
C
若:\theta _1 + \theta_2+\cdots \theta_k=1,x_1,...,x_k\in \mathbf{C}
若:θ1+θ2+⋯θk=1,x1,...,xk∈C
有
:
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∈
C
有:\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k\in \mathbf{C}
有:θ1x1+θ2x2+⋯θkxk∈C
则称
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k
θ1x1+θ2x2+⋯θkxk 是一个
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk的仿射组合(an affine combination of the points
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk)。
以下对
n
=
3
n=3
n=3的情况做简要证明:
设
θ
1
+
θ
2
+
θ
3
\theta _1+\theta _2+\theta _3
θ1+θ2+θ3,
x
1
,
x
2
,
x
3
∈
C
x_1,x_2,x_3\in \mathbf{C}
x1,x2,x3∈C,
θ
1
θ
1
+
θ
2
x
1
+
θ
2
θ
1
+
θ
2
x
2
∈
C
\frac{\theta _1}{\theta _1+\theta _2}x_1 + \frac{\theta _2}{\theta _1+\theta _2}x_2 \in \mathbf{C}
θ1+θ2θ1x1+θ1+θ2θ2x2∈C
那么加入第三个点
(
θ
1
+
θ
2
)
(
θ
1
θ
1
+
θ
2
x
1
+
θ
2
θ
1
+
θ
2
x
2
)
+
(
1
−
θ
1
−
θ
2
)
x
3
∈
C
(\theta _1+\theta _2)(\frac{\theta _1}{\theta _1+\theta _2}x_1 + \frac{\theta _2}{\theta _1+\theta _2}x_2)+(1-\theta _1-\theta _2)x_3 \in \mathbf{C}
(θ1+θ2)(θ1+θ2θ1x1+θ1+θ2θ2x2)+(1−θ1−θ2)x3∈C
证明提示:将 θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 \frac{\theta _1}{\theta _1+\theta _2}x_1 + \frac{\theta _2}{\theta _1+\theta _2} θ1+θ2θ1x1+θ1+θ2θ2看作 C \mathbf{C} C中的一个点。
仿射包(Affine hull)
仿射包是一个包含集合(不一定是仿射集)
C
\mathbf{C}
C的最小仿射集,记为
a
f
f
C
\mathbf{aff C}
affC,即
a
f
f
C
=
{
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∣
θ
1
+
θ
2
+
⋯
θ
k
=
1
,
x
1
,
.
.
.
,
x
k
∈
C
}
\mathbf{aff C} = \{ \theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k|\theta _1 + \theta_2+\cdots \theta_k=1,x_1,...,x_k\in \mathbf{C} \}
affC={θ1x1+θ2x2+⋯θkxk∣θ1+θ2+⋯θk=1,x1,...,xk∈C}显然有以下结论成立:
若
S
\mathbf{S}
S是满足
C
⊆
S
\mathbf{C}\subseteq\mathbf{S}
C⊆S的一个仿射集,则
a
f
f
C
⊆
S
\mathbf{aff C}\subseteq \mathbf{S}
affC⊆S
仿射包也有一些浅显易懂的例子,例如,空间任意两个不重合的点其仿射包为经过这两点的直线,三个不重合的点为包含这三个点的平面…
相关子空间(Subspace)
现思考如下问题
若
α
,
β
∈
R
,
x
1
,
x
2
∈
C
\alpha,\beta \in \mathbf{R},x_1,x_2\in \mathbf{C}
α,β∈R,x1,x2∈C,其中
C
\mathbf{C}
C是一个
R
n
\mathbf{R}^n
Rn上的仿射集,那么
α
x
1
+
β
x
2
\alpha x_1 + \beta x_2
αx1+βx2是否仍属于
C
\mathbf{C}
C?
这个是不一定的。对比仿射集的定义我们知道当且仅当
α
+
β
=
1
\alpha + \beta =1
α+β=1时才属于仿射集
C
\mathbf{C}
C。
这里需要引入一个相关子空间的概念。
如果集合
C
\mathbf{C}
C是一个仿射集,且
x
0
∈
C
x_0\in \mathbf{C}
x0∈C,那么
V
=
C
−
x
0
\mathbf{V}=\mathbf{C}-x_0
V=C−x0 这里称
V
为
C
\mathbf{V}为\mathbf{C}
V为C的相关子空间。
我们以
R
2
\mathbf{R}^2
R2为例阐述
V
\mathbf{V}
V的直观含义
很显然这就相当于坐标轴移动至
x
0
x_0
x0处,或者说以
x
0
x_0
x0为原点构造了一个新的空间。
假如选取的
x
0
∉
C
x_0\notin \mathbf{C}
x0∈/C,则
V
=
C
−
x
0
\mathbf{V}=\mathbf{C}-x_0
V=C−x0,因为对于一个空间而言须满足以下性质:
1.加法封闭: x 1 , x 2 ∈ V ⇒ x 1 + x 2 ∈ V x_1,x_2\in\mathbf{V}\Rightarrow x_1+x_2\in\mathbf{V} x1,x2∈V⇒x1+x2∈V
2.数乘封闭:
x
1
∈
V
,
λ
∈
R
⇒
λ
x
1
∈
V
x_1 \in\mathbf{V},\lambda \in \mathbf{R}\Rightarrow \lambda x_1 \in \mathbf{V}
x1∈V,λ∈R⇒λx1∈V
需要注意的是:任何一个空间都必须包含一个“原点”(这是一个很哲学的定义,就像人们通常认为的宇宙起源于一次爆炸),没有原点的集合构不成一个空间,例如二维平面一条不经过原点的直线,这条直线上点构成的集合不是一个空间,因为他不满足加法封闭。
线性方程组的解集(Solution set of linear equations)
现考虑线性方程组的解集,能试证明线性方程组的解集
{
x
∣
A
x
=
b
}
\{x|Ax=b\}
{x∣Ax=b}是一个仿射集合。
A
x
=
b
Ax = b
Ax=b
其中
A
∈
R
m
×
n
,
b
∈
R
m
A\in \mathbf{R}^{m\times n},b\in \mathbf{R}^m
A∈Rm×n,b∈Rm。
现取
x
1
,
x
2
∈
x
x_1,\,x_2\in x
x1,x2∈x,显然
A
x
1
=
b
,
A
x
2
=
b
Ax_1=b,Ax_2 = b
Ax1=b,Ax2=b,令
θ
∈
R
\theta \in \mathbf{R}
θ∈R,
x
′
=
θ
x
1
+
(
1
−
θ
)
x
2
x'=\theta x_1+(1-\theta)x_2
x′=θx1+(1−θ)x2,有
A
x
′
=
A
[
θ
x
1
+
(
1
−
θ
)
x
2
]
=
θ
A
x
1
+
(
1
−
θ
)
A
x
2
=
θ
b
+
(
1
−
θ
)
b
=
b
Ax' = A[\theta x_1+(1-\theta)x_2]=\theta Ax_1+(1-\theta)Ax_2=\theta b+(1-\theta)b=b
Ax′=A[θx1+(1−θ)x2]=θAx1+(1−θ)Ax2=θb+(1−θ)b=b因此
x
′
∈
x
x'\in x
x′∈x,集合
{
x
∣
A
x
=
b
}
\{x|Ax=b\}
{x∣Ax=b}是一个仿射集
凸集(Convex sets)
假如我们对仿射集的要求加以放宽(注意是放宽),若过集合
C
⊆
R
n
\mathbf{C}\subseteq \mathbf{R}^n
C⊆Rn中任意两个点的线段仍在集合
C
\mathbf{C}
C中,称
C
\mathbf{C}
C为凸集。
利用线段的知识,我们可以用数学的语言描述这个集合
C
\mathbf{C}
C
∀
x
1
,
x
2
∈
C
,
θ
∈
[
0
,
1
]
,
θ
x
1
+
(
1
−
θ
)
x
2
∈
R
\forall x_1,x_2 \in \mathbf{C},\theta \in [0,1],\theta x_1+(1-\theta )x_2 \in \mathbf{R}
∀x1,x2∈C,θ∈[0,1],θx1+(1−θ)x2∈R
注意
θ
∈
[
0
,
1
]
\theta \in [0,1]
θ∈[0,1]。
我们可以用一些形象的例子来说明凸集的性质
对于第一幅图构成的集合,我们在阴影区域任意选取两个点,过这两个点的线段仍然在这个区域中,因此这是一个凸集。
对于第二幅图构成的集合,选取如图两个特殊的点,过这两个点的线段将会有一部分超出这个区域,因此不是一个凸集。
对于第三幅图构成的集合,由于边界不连续,因此在边界上取两个点绘制的线段将可能经过这个不连续区域,因此也不是一个凸集。
凸组合(Convex combination)
凸集的概念同样可以扩充到
k
k
k个点的情况
若
:
θ
1
+
θ
2
+
⋯
θ
k
=
1
,
θ
0
,
⋯
θ
k
⩾
0
,
x
1
,
.
.
.
,
x
k
∈
C
若:\theta _1 + \theta_2+\cdots \theta_k=1,\theta _0,\cdots \theta _k \geqslant 0,x_1,...,x_k\in \mathbf{C}
若:θ1+θ2+⋯θk=1,θ0,⋯θk⩾0,x1,...,xk∈C
有
:
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∈
C
有:\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k\in \mathbf{C}
有:θ1x1+θ2x2+⋯θkxk∈C
则称
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k
θ1x1+θ2x2+⋯θkxk 是一个
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk的凸组合。
提示:凸组合与仿射组合的区别就在于凸组合放宽了限制条件,只需
θ
k
=
1
,
θ
0
,
⋯
θ
k
⩾
0
\theta_k=1,\theta _0,\cdots \theta _k \geqslant 0
θk=1,θ0,⋯θk⩾0,这等价于
θ
k
=
1
,
θ
0
,
⋯
θ
k
∈
[
0
,
1
]
\theta_k=1,\theta _0,\cdots \theta _k \in [0,1]
θk=1,θ0,⋯θk∈[0,1]。
直观意义上,凸组合就是对
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk这
k
k
k个点的加权平均。
凸包(Convex hull)
凸包的概念可以从仿射包类比过来:
凸包是一个包含集合(不一定是凸集)
C
\mathbf{C}
C的最小凸集,记为
c
o
n
v
C
\mathbf{conv C}
convC,即
c
o
n
v
C
=
{
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∣
θ
1
+
θ
2
+
⋯
θ
k
=
1
,
θ
0
,
⋯
θ
k
⩾
0
,
x
1
,
.
.
.
,
x
k
∈
C
}
\mathbf{conv C} = \{ \theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k|\theta _1 + \theta_2+\cdots \theta_k=1,\theta _0,\cdots \theta _k \geqslant 0,x_1,...,x_k\in \mathbf{C} \}
convC={θ1x1+θ2x2+⋯θkxk∣θ1+θ2+⋯θk=1,θ0,⋯θk⩾0,x1,...,xk∈C}显然有以下结论成立
若
S
\mathbf{S}
S是满足
C
⊆
S
\mathbf{C}\subseteq\mathbf{S}
C⊆S的一个凸集,则
c
o
n
v
C
⊆
S
\mathbf{conv C}\subseteq \mathbf{S}
convC⊆S
以下是凸包的的形象例子
锥、凸锥、锥组合、锥包(Cones, Cone sets, Cone combination, Cone Hull)
若对于任意
x
∈
C
,
θ
⩾
0
x\in\mathbf{C},\theta \geqslant 0
x∈C,θ⩾0,都有
θ
x
∈
C
\theta x\in \mathbf{C}
θx∈C,则称
C
\mathbf{C}
C,为一个锥。显然锥至少包含原点。
对于任意
x
1
,
x
2
∈
C
x_1,x_2\in \mathbf{C}
x1,x2∈C和
θ
1
,
θ
2
⩾
0
\theta_1,\theta_2 \geqslant 0
θ1,θ2⩾0,都有
θ
1
x
1
+
θ
2
x
2
∈
C
\theta_1x_1+\theta_2x_2\in C
θ1x1+θ2x2∈C的集合
C
\mathbf{C}
C称为凸锥。
也就是说,在凸锥
C
\mathbf{C}
C中任取两个点
x
1
,
x
2
x_1,x_2
x1,x2若有一点
x
3
x_3
x3能与这两个点和原点构成一个平行四边形,
x
3
x_3
x3必然属于
C
\mathbf{C}
C,下图是一个凸锥的例子。
有凸锥同样也有锥组合,对于凸锥
C
\mathbf{C}
C
若
:
θ
0
,
⋯
θ
k
⩾
0
,
x
1
,
.
.
.
,
x
k
∈
C
若:\theta _0,\cdots \theta _k \geqslant 0,x_1,...,x_k\in \mathbf{C}
若:θ0,⋯θk⩾0,x1,...,xk∈C
有
:
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∈
C
有:\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k\in \mathbf{C}
有:θ1x1+θ2x2+⋯θkxk∈C
注意我们仅限制
θ
\theta
θ非负,因此锥组合又叫做非负线性组合。
同样地也有锥包,定义如下
{
θ
1
x
1
+
θ
2
x
2
+
⋯
θ
k
x
k
∣
θ
0
,
⋯
θ
k
⩾
0
,
x
1
,
.
.
.
,
x
k
∈
C
}
\{\theta _1 x_1 + \theta_2x_2+\cdots \theta_kx_k|\theta _0,\cdots \theta _k \geqslant 0,x_1,...,x_k\in \mathbf{C}\}
{θ1x1+θ2x2+⋯θkxk∣θ0,⋯θk⩾0,x1,...,xk∈C}
他是包含任意集合
C
\mathbf{C}
C的一个最小凸锥。下图是锥包的形象例子。