再生核希尔伯特空间[RKHS]导论—第一部分
注:本博客翻译自此链接。
概要: 本文中将研究线性代数和泛函分析中遇到的不同空间。我们的最终目标是理解再生核希尔伯特空间(Reproducing Kernel Hilbert Space, RKHS)的含义,而RKHS在机器学习和相关领域有着广泛的应用。我们将从任何工科本科生都熟悉的向量空间开始我们的学习之旅。
关键字: RKHS; 向量空间
1 向量空间(Vector Space)
简单来说,向量空间是一个所有元素具有如下两个固有特征的集合:
1. 集合内任意两元素可加,加和仍在该集合内;
2. 集合内任一元素可与任一标量相乘,乘积仍在该集合内;
我们将满足以上2个条件的集合之元素称为向量(vector),向量空间一个最简单的例子是三维实数空间
R
3
\reals^{3}
R3,对应的标量是一维实数空间
R
\reals
R中的元素。此向量空间中的加法和数乘如下例所示:
A
d
d
i
t
i
o
n
:
[
1
2
3
]
+
[
4
5
6
]
=
[
5
7
9
]
;
S
c
a
l
a
r
M
u
l
t
i
p
l
i
c
a
t
i
o
n
:
0.2
[
9
8
7
]
=
[
1.8
1.6
1.4
]
Addition:\begin{bmatrix}1\\2\\3\end{bmatrix} + \begin{bmatrix}4\\5\\6\end{bmatrix} = \begin{bmatrix}5\\7\\9\end{bmatrix}; \qquad\qquad Scalar Multiplication:0.2\begin{bmatrix}9\\8\\7\end{bmatrix}=\begin{bmatrix}1.8\\1.6\\1.4\end{bmatrix}
Addition:⎣⎡123⎦⎤+⎣⎡456⎦⎤=⎣⎡579⎦⎤;ScalarMultiplication:0.2⎣⎡987⎦⎤=⎣⎡1.81.61.4⎦⎤
形式上表达如下:一个定义在域
F
\mathbb{F}
F的向量空间是具有两个二元运算——加法(以+标记)和数乘(以
⋅
\cdot
⋅标记)——的集合
ν
\nu
ν,同时对所有
u
\textbf{u}
u、
v
\textbf{v}
v
∈
\in
∈
ν
\nu
ν以及
a
a
a、
b
b
b
∈
\in
∈
F
\mathbb{F}
F满足若干公理。为了简洁起见,我们在这里省略了这些公理。实际上在所有情况下,域
F
\mathbb{F}
F要么是实数集
R
\mathbb{R}
R,要么是复数集
C
\mathbb{C}
C。
你可能已经注意到了,我们这里使用了小写不加粗字母(如
a
a
a,
b
b
b等)来表示域
F
\mathbb{F}
F中的元素,即标量;而用了小写加粗字母(如
u
\textbf{u}
u、
v
\textbf{v}
v等)来表示
ν
\nu
ν中的元素,即向量。此后,我们就直接用
ν
\nu
ν来表示一个向量空间而不再提及域
F
\mathbb{F}
F及加法与数乘这两个运算。
向量空间为集合引入了非常丰富的结构。然而,为了对向量空间进行数学分析,我们需要一些基于向量空间附加工具,例如向量长度、向量之间的距离和角度度量等,而如上所述的单纯的向量空间缺乏这些内容。我们首先考虑向量空间中向量长度的概念。
2 赋范空间(Normed Vector Space)
简单来说,赋范向量空间是向量具有长度的向量空间。向量
v
\textbf{v}
v的长度或范数由
∥
v
∥
\lVert \textbf{v} \rVert
∥v∥表示。范数必须满足几个定义在赋范向量空间中的形式化公理。
一个赋范向量空间 ( ν , ∥ ⋅ ∥ ) (\nu,\lVert \cdot \rVert) (ν,∥⋅∥)是一个在域 F \mathbb{F} F上被赋予范数 ∥ ⋅ ∥ \lVert \cdot \rVert ∥⋅∥的向量空间 ν \nu ν。其中范数 ∥ ⋅ ∥ \lVert \cdot \rVert ∥⋅∥是指对于所有 v ∈ ν \textbf{v}\in\nu v∈ν, a ∈ F a\in \mathbb{F} a∈F满足下述4个公理的 ν → R \nu \rightarrow \mathbb{R} ν→R映射。
1.
∥
v
∥
⩾
0
\lVert \textbf{v} \rVert\geqslant0
∥v∥⩾0.
2.
∥
v
∥
=
0
\lVert \textbf{v} \rVert=0
∥v∥=0 if and only if
v
=
0
\textbf{v}=\textbf{0}
v=0.
3.
∥
a
v
∥
=
∣
a
∣
\lVert a\textbf{v} \rVert=\lvert a \rvert
∥av∥=∣a∣
∥
v
∥
\lVert \textbf{v} \rVert
∥v∥.
4.
∥
u
+
v
∥
⩽
∥
u
∥
+
∥
v
∥
\lVert \textbf{u} + \textbf{v} \rVert \leqslant \lVert \textbf{u} \rVert+\lVert \textbf{v} \rVert
∥u+v∥⩽∥u∥+∥v∥.
在向量空间上定义范数使我们能够测量空间中向量之间的距离。向量 u \textbf{u} u, v ∈ ν \textbf{v}\in\nu v∈ν之间的距离等于向量 u \textbf{u} u − - − v \textbf{v} v的长度,形式化表达就是 d ( u , v ) = ∥ u − v ∥ d(\textbf{u},\textbf{v})=\lVert \textbf{u} - \textbf{v} \rVert d(u,v)=∥u−v∥,其中 d ( ⋅ , ⋅ ) d(\cdot,\cdot) d(⋅,⋅)是距离函数。
事实上,点与点之间的距离可以定义在任意非空集上,而这些非空集并不一定是向量空间。元素之间具有距离度量的集合称为度量空间。下面我们给出度量空间的形式化定义。
3 度量空间(Metric Space)
一个度量空间 ( M , d ) (M,d) (M,d)是集合 M M M与函数 d d d的组合。其中 d d d是对于所有元素 x , y , z ∈ M x,y,z\in M x,y,z∈M满足如下4条公理的 M × M → R M \times M \rightarrow\mathbb{R} M×M→R映射。
1.
d
(
x
,
y
)
⩾
0
d(x,y) \geqslant 0
d(x,y)⩾0.
2.
d
(
x
,
y
)
=
0
d(x,y) =0
d(x,y)=0 if and only if
x
=
y
x=y
x=y.
3.
d
(
x
,
y
)
=
d
(
y
,
x
)
d(x,y) = d(y,x)
d(x,y)=d(y,x).
4.
d
(
x
,
z
)
⩽
d
(
x
,
y
)
+
d
(
y
,
z
)
d(x,z) \leqslant d(x,y)+d(y,z)
d(x,z)⩽d(x,y)+d(y,z).
满足上述公理的函数 d d d称为度量函数或距离函数。最后一个公理(或性质)称为三角不等式,可能是度量中最有趣的性质。
每个赋范向量空间都是度量空间,但是反过来说并不正确;我们不需要集合上的向量空间结构来定义其上的有效度量。
4 巴拿赫空间(Banach Space)
Banach空间是一个完备的(complete)赋范向量空间。那么完备性(completeness)是什么?为了定义完备性,我们首先需要理解高斯序列(Cauchy sequence)的含义。
4.1 Cauchy序列
Cauchy序列是来自一个集合的元素序列,其中邻近的元素彼此越来越接近(见图1)。为了使上面的句子有意义,我们需要一种方法来测量集合中两个元素之间的紧密程度(或距离)。因此,柯西序列是在度量空间上定义的。下面我们给出赋范向量空间和更一般的度量空间中的柯西序列的定义。读者很容易看出,第一个定义只是第二个定义的一个特例。
定义一(赋范向量空间):在一个赋范向量空间
(
ν
,
∥
⋅
∥
)
(\nu,\lVert \cdot \rVert)
(ν,∥⋅∥)中,向量序列
x
1
,
x
2
,
x
3
,
.
.
.
\textbf{x}_1,\textbf{x}_2,\textbf{x}_3,...
x1,x2,x3,...在满足以下条件时可称为柯西序列:
∀
ε
>
0
,
∃
N
∈
Z
+
,
s
.
t
.
,
∀
m
,
n
>
N
,
∥
x
n
−
x
m
∥
<
ε
\forall \varepsilon>0,\exist N \in \mathbb{Z^{+}},s.t., \forall m,n>N, \lVert \textbf{x}_n - \textbf{x}_m \rVert < \varepsilon
∀ε>0,∃N∈Z+,s.t.,∀m,n>N,∥xn−xm∥<ε。
定义二(度量空间):在一个度量空间
(
M
,
d
)
(M,d)
(M,d)中,序列
x
1
,
x
2
,
x
3
,
.
.
.
,
x
i
∈
M
,
i
=
1
,
2
,
3
,
.
.
.
x_1,x_2,x_3,...,x_i\in M,i=1,2,3,...
x1,x2,x3,...,xi∈M,i=1,2,3,...在满足以下条件时可称为柯西序列:
∀
ε
>
0
,
∃
N
∈
Z
+
,
s
.
t
.
,
∀
m
,
n
>
N
,
d
(
x
n
−
x
m
)
<
ε
\forall \varepsilon>0,\exist N \in \mathbb{Z^{+}},s.t., \forall m,n>N, d(x_n -x_m)< \varepsilon
∀ε>0,∃N∈Z+,s.t.,∀m,n>N,d(xn−xm)<ε。
直观地说,Cauchy序列是 n n n趋向无穷大时收敛或有极限的序列。然而,对于一些空间和一些Cauchy序列,这个极限不是该序列所定义在的空间的元素。因此,这样的极限不存在,并且Cauchy序列不收敛。
图1是一个定义在实数集
R
\reals
R上的Cauchy序列,随着
n
n
n的增大,序列值
x
n
x_n
xn彼此靠拢并且逼近数列的极限(本例中极限值为1)。
4.2 完备性
如果一个度量空间(Metric Space)上定义的每个Cauchy序列都收敛,即每个Cauchy序列都有一个极限且与Cauchy序列在同一空间中,则称之为完备度量空间。再次注意,我们必须先在空间上定义一个度量来讨论Cauchy序列,从而讨论完备性。因此,完备性是定义在度量基础上的。
举例:
一个完备空间的例子是
n
n
n维实数空间
R
n
\mathbb{R^{n}}
Rn及该空间中某种常见的距离度量(如欧氏距离)。简便起见,不妨考虑一维实数空间
R
\mathbb{R}
R,此时欧氏距离收缩为绝对值(absolute value),以绝对值为度量定义在
R
\mathbb{R}
R上的每一个Cauchy序列都收敛到
R
\mathbb{R}
R中的一个元素。因此,一维实数空间
R
\mathbb{R}
R是完备的。推而广之,
n
n
n维实数空间
R
n
\mathbb{R^{n}}
Rn也是完备的。
反例:
考虑以绝对值为度量的有理数空间
Q
\mathbb{Q}
Q,在
Q
\mathbb{Q}
Q上定义一个递归序列
x
n
x_n
xn,其中
x
1
=
1
,
x
n
=
x
n
−
1
/
2
+
1
/
x
n
−
1
,
n
=
2
,
3
,
.
.
.
x_1=1,x_n=x_{n-1}/2+1/x_{n-1},n=2,3,...
x1=1,xn=xn−1/2+1/xn−1,n=2,3,...该序列在一维实数空间
R
\mathbb{R}
R中收敛于
2
\sqrt{2}
2,但是
2
\sqrt{2}
2不存在于在有理数空间
Q
\mathbb{Q}
Q中。因此该序列在
Q
\mathbb{Q}
Q中不是一个Cauchy序列。
现在,让我们回到Banach空间的定义:Banach空间是所有定义于其中的Cauchy序列都收敛(有极限)的赋范向量空间。我们可以把不具有完备性的空间看成是有孔的空间,那么一个完备的空间就没有任何孔。使一个空间具有完备性(稍后我们将遇到)类似于通过向不完备的空间中添加缺失元素来填补空间中的孔洞。
在下一章中,我们将继续本教程内容来讨论内积空间、希尔伯特空间和再生内核希尔伯特空间。