RKHS的定义
Def1(Evaluation function) 令
H
\mathcal{H}
H 是一个 Hilbert 空间,
X
\mathcal{X}
X 是一个非空集合,
f
:
X
→
R
f:\mathcal{X}\to \mathbb{R}
f:X→R 是定义在
H
\mathcal{H}
H 上的线性泛函。 对于任意的
x
∈
X
,
x\in \mathcal{X},
x∈X, 定义映射
δ
x
:
H
→
R
,
\delta_x: \mathcal{H}\to\mathbb{R},
δx:H→R,
δ
x
:
f
↦
f
(
x
)
\delta_x:f \mapsto f(x)
δx:f↦f(x) 为在
x
x
x 点的 Evaluation function。
显然,
δ
x
\delta_x
δx 是线性的。 那么
δ
x
\delta_x
δx 是否是有界(连续)的呢? 事实上,
δ
x
\delta_x
δx 的有界性关乎 RKHS 的定义。
Def2(Reproducing Kernel Hilbert Space)
H
\mathcal{H}
H 是一个 Hilbert 空间, 其元素为
f
:
X
→
R
f:\mathcal{X}\to \mathbb{R}
f:X→R 。 若
δ
x
\delta_x
δx 是连续的, 我们称
H
\mathcal{H}
H 是一个 RKHS。
上述定义并没有将 RKHS 与 Kernel 联系起来, 接下来, 我们将利用 kernel 来定义 RKHS。
Def3(Reproducing Kernel)
H
\mathcal{H}
H 是一个 Hilbert 空间, 其元素为
f
:
X
→
R
f:\mathcal{X}\to \mathbb{R}
f:X→R 。函数
k
:
X
×
X
→
R
k:\mathcal{X}\times \mathcal{X}\to \mathbb{R}
k:X×X→R 被称作
H
\mathcal{H}
H 的 kernel 如果下式成立:
- ∀ x ∈ X , k ( ⋅ , x ) ∈ H ; \forall x\in \mathcal{X}, k(\cdot, x)\in\mathcal{H}; ∀x∈X,k(⋅,x)∈H;
- ∀ x ∈ X , ∀ f ∈ H , ⟨ f , k ( ⋅ , x ) ⟩ H = f ( x ) , \forall x \in \mathcal{X}, \forall f\in \mathcal{H}, \langle f, k(\cdot, x)\rangle_{\mathcal{H}}=f(x), ∀x∈X,∀f∈H,⟨f,k(⋅,x)⟩H=f(x), (the reproducing property).
有上述定义我们立得, ∀ x , y ∈ X , k ( x , y ) = ⟨ k ( ⋅ , x ) , k ( ⋅ , y ) ⟩ H \forall x,y\in\mathcal{X}, k(x,y)=\langle k(\cdot,x),k(\cdot, y)\rangle_{\mathcal{H}} ∀x,y∈X,k(x,y)=⟨k(⋅,x),k(⋅,y)⟩H。 上述定义产生了一系列的问题,比如这样的Kernel是否存在唯一?如果存在唯一,那么它有什么性质呢?上述两种定义方式是否等价? 接下来我们便回答这一系列的问题。
RKHS的性质
首先,如果 Kernel 存在, 那么它一定是唯一的。 事实上, 若
H
\mathcal{H}
H 有两个 Kernels, 那么有
⟨
f
,
k
1
(
⋅
,
x
)
−
k
2
(
⋅
,
x
)
⟩
H
=
f
(
x
)
−
f
(
x
)
=
0
,
∀
f
∈
H
,
∀
x
∈
X
.
\langle f, k_1(\cdot, x)-k_2(\cdot, x)\rangle_{\mathcal{H}}=f(x)-f(x)=0,\quad \forall f\in\mathcal{H},\forall x\in\mathcal{X}.
⟨f,k1(⋅,x)−k2(⋅,x)⟩H=f(x)−f(x)=0,∀f∈H,∀x∈X.特别地, 我们取
f
=
k
1
(
⋅
,
x
)
−
k
2
(
⋅
,
x
)
f=k_1(\cdot,x)-k_2(\cdot,x)
f=k1(⋅,x)−k2(⋅,x), 便可得其唯一性。 而存在性我们可以利用 Riesz 表示定理得到。
Th(Existence of the reproducing kernel)
H
\mathcal{H}
H 是一个 RKHS 当且仅当
H
H
H 有一个再生核(Reproducing Kernel)。
Proof: 若
H
\mathcal{H}
H 有一个再生核
k
k
k, 则
⟨
f
,
k
(
⋅
,
x
)
⟩
H
=
f
(
x
)
\langle f, k(\cdot, x)\rangle_{\mathcal{H}}=f(x)
⟨f,k(⋅,x)⟩H=f(x)。 由此可得,
∣
δ
x
f
∣
=
∣
f
(
x
)
∣
=
∣
⟨
f
,
k
(
⋅
,
x
)
⟩
H
∣
≤
∥
f
∥
H
⋅
∥
k
(
⋅
,
x
)
∥
H
=
k
(
x
,
x
)
1
2
∥
f
∥
H
\begin{aligned} |\delta_xf|&=|f(x)|\\ &=|\langle f, k(\cdot, x)\rangle_{\mathcal{H}}|\\ &\leq \Vert f\Vert_{\mathcal{H}} \cdot \Vert k(\cdot,x)\Vert _{\mathcal{H}}\\ &=k(x,x)^{\frac{1}{2}}\Vert f\Vert _{\mathcal{H}} \end{aligned}
∣δxf∣=∣f(x)∣=∣⟨f,k(⋅,x)⟩H∣≤∥f∥H⋅∥k(⋅,x)∥H=k(x,x)21∥f∥H 即
δ
x
\delta_x
δx 是有界的,
H
\mathcal{H}
H 是一个 RKHS.
反过来, 若
H
\mathcal{H}
H 是一个 RKHS, 则
δ
x
∈
H
′
\delta_x\in \mathcal{H}'
δx∈H′ 是有界的。 由 Riesz 表示定理有存在一个元素
f
δ
x
∈
H
f_{\delta_x} \in \mathcal{H}
fδx∈H 使得
δ
x
f
=
⟨
f
,
f
δ
x
⟩
H
,
∀
f
∈
H
.
\delta_xf=\langle f,f_{\delta_x}\rangle_{\mathcal{H}}, \quad \forall f\in\mathcal{H}.
δxf=⟨f,fδx⟩H,∀f∈H.定义
k
(
x
′
,
x
)
=
f
δ
x
(
x
′
)
,
k(x',x)= f_{\delta_{x}}(x'),
k(x′,x)=fδx(x′), 验证两条性质即可。
那么,所谓的 Kernel 到底有什么形式呢? 给定一个 Kernel, 其对应的 RKHS 具体有什么形式呢? 首先我们给出一个引理:
Lemma: 再生核都是对称正定的。
Proof:
k
(
x
,
y
)
=
⟨
k
(
⋅
,
x
)
,
k
(
⋅
,
y
)
⟩
,
k(x,y)=\langle k(\cdot, x),k(\cdot,y)\rangle,
k(x,y)=⟨k(⋅,x),k(⋅,y)⟩, 令
ϕ
:
x
↦
k
(
⋅
,
x
)
\phi: x\mapsto k(\cdot,x)
ϕ:x↦k(⋅,x), 则有
∑
i
=
1
n
∑
j
=
1
n
a
i
a
j
k
(
x
i
,
x
j
)
=
⟨
∑
i
=
1
n
a
i
ϕ
(
x
i
)
,
∑
j
=
1
n
a
j
ϕ
(
x
j
)
⟩
≥
0.
\sum_{i=1}^n\sum_{j=1}^na_ia_jk(x_i,x_j)=\langle \sum_{i=1}^na_i\phi(x_i), \sum_{j=1}^na_j\phi(x_j)\rangle\geq 0.
i=1∑nj=1∑naiajk(xi,xj)=⟨i=1∑naiϕ(xi),j=1∑najϕ(xj)⟩≥0.我们给出对于任意一个正定核对应的RKHS的具体形式:
- k : X × X → R k:\mathcal{X}\times \mathcal{X}\to \mathbb{R} k:X×X→R 是一个正定核, 定义 H 0 = [ { k ( ⋅ , x ) } x ∈ X ] \mathcal{H}_0=[\{k(\cdot,x)\}_{x\in\mathcal{X}}] H0=[{k(⋅,x)}x∈X] 其装备范数 ⟨ f , g ⟩ H 0 = ∑ i = 1 n ∑ j = 1 m α i β j k ( y j , x i ) , \langle f,g\rangle_{\mathcal{H}_0}=\sum_{i=1} ^n \sum_{j=1}^m\alpha_i\beta_jk(y_j,x_i), ⟨f,g⟩H0=∑i=1n∑j=1mαiβjk(yj,xi), 其中 f = ∑ i = 1 n α i k ( ⋅ , x i ) , g = ∑ j = 1 m β j k ( ⋅ , y j ) . f=\sum_{i=1}^n\alpha_ik(\cdot, x_i),g=\sum_{j=1}^m\beta_jk(\cdot,y_j). f=∑i=1nαik(⋅,xi),g=∑j=1mβjk(⋅,yj).
- H 0 \mathcal{H}_0 H0 上的Evaluation function 是连续的,并且 H 0 \mathcal{H}_0 H0 中任意收敛到0的Cauchy列依范数收敛,i.e., f n ∈ H 0 , f n → 0 ( p o i n t w i s e ) ⇒ ∥ f n ∥ H 0 → 0. f_n\in\mathcal{H}_0,f_n\to 0(pointwise)\Rightarrow \Vert f_n\Vert_{\mathcal{H}_0}\to 0. fn∈H0,fn→0(pointwise)⇒∥fn∥H0→0.
- 定义 H = { f : ∃ f n ∈ H 0 , s . t . f n → f ( p o i n t w i s e , H 0 ) } . \mathcal{H}=\{f:\exists f_n\in\mathcal{H}_0,s.t. f_n\to f(pointwise, \mathcal{H}_0)\}. H={f:∃fn∈H0,s.t.fn→f(pointwise,H0)}.
- 定义内积 ⟨ f , g ⟩ H = lim n → ∞ ⟨ f n , g n ⟩ H 0 , \langle f,g\rangle_{\mathcal{H}}=\lim\limits_{n\to\infty}\langle f_n,g_n\rangle_{\mathcal{H}_0}, ⟨f,g⟩H=n→∞lim⟨fn,gn⟩H0, 有 ⟨ ⋅ , ⋅ ⟩ H \langle\cdot,\cdot\rangle_{\mathcal{H}} ⟨⋅,⋅⟩H 是 well-defined 和内积。
- H 0 \mathcal{H}_0 H0 在 H \mathcal{H} H 中稠密且 H \mathcal{H} H 上的 Evaluation function 是连续的;另外有 H \mathcal{H} H 是完备的。
至此,我们便得到 k ( ⋅ , x ) k(\cdot, x) k(⋅,x) 对应的 RKHS ---- H \mathcal{H} H。 上述定理也被称作 Moore-Aronszajn Theorem。
Th(Sum of RKHSs)
k
1
,
k
2
∈
R
+
X
×
X
k_1,k_2\in\mathbb{R}_+^{\mathcal{X} \times \mathcal{X}}
k1,k2∈R+X×X (再生核), 令
k
=
k
1
+
k
2
k=k_1+k_2
k=k1+k2, 则
H
k
=
H
k
1
+
H
k
2
=
{
f
1
+
f
2
:
f
1
∈
H
k
1
,
f
2
∈
H
k
2
}
,
\mathcal{H}_k=\mathcal{H}_{k_1}+\mathcal{H}_{k_2}=\{f_1+f_2:f_1\in\mathcal{H}_{k_1},f_2\in\mathcal{H}_{k_2}\},
Hk=Hk1+Hk2={f1+f2:f1∈Hk1,f2∈Hk2},
∥
f
∥
H
k
2
=
min
f
1
+
f
2
=
f
{
∥
f
1
∥
H
k
1
2
+
∥
f
2
∥
H
k
2
2
}
.
\Vert f\Vert ^2_{\mathcal{H}_k}=\min\limits_{f_1+f_2=f}\{\Vert f_1\Vert^2_{\mathcal{H}_{k_1}}+\Vert f_2\Vert^2_{\mathcal{H}_{k_2}}\}.
∥f∥Hk2=f1+f2=fmin{∥f1∥Hk12+∥f2∥Hk22}.
Th(Product of kernels)
k
1
,
k
2
k_1,k_2
k1,k2 分别是
X
,
Y
\mathcal{X},\mathcal{Y}
X,Y 上的 kernel, 则
k
(
(
x
,
y
)
,
(
x
′
,
y
′
)
)
≔
k
1
(
x
,
x
′
)
k
2
(
y
,
y
′
)
k((x,y),(x',y'))\coloneqq k_1(x,x')k_2(y,y')
k((x,y),(x′,y′)):=k1(x,x′)k2(y,y′) 是
X
×
Y
\mathcal{X}\times \mathcal{Y}
X×Y上的 kernel 。
RKHS与 L 2 L^2 L2 的关系
我们先给出泛函中紧算子的谱分解定理:
Th(Spectral theorem)
F
\mathcal{F}
F 是一个 Hilbert 空间,
T
:
F
→
F
T:\mathcal{F}\to \mathcal{F}
T:F→F 是一个紧算子,那么存在至多可数个正交基
{
e
j
}
j
∈
J
∈
F
\{e_j\}_{j\in J}\in \mathcal{F}
{ej}j∈J∈F 和
{
λ
j
}
j
∈
J
\{\lambda_j\}_{j\in J}
{λj}j∈J 满足
∣
λ
1
∣
≥
∣
λ
2
∣
≥
⋯
≥
0
|\lambda_1|\geq |\lambda_2|\geq \cdots\geq0
∣λ1∣≥∣λ2∣≥⋯≥0 使得
T
f
=
∑
j
∈
J
λ
j
⟨
f
,
e
j
⟩
F
,
∀
f
∈
F
.
Tf=\sum_{j\in J}\lambda_j\langle f,e_j\rangle_{\mathcal{F}},\quad\forall f\in\mathcal{F}.
Tf=j∈J∑λj⟨f,ej⟩F,∀f∈F.
Def(Intergral Operator) 令
k
k
k 是一个定义在紧度量空间
X
\mathcal{X}
X 上的连续核,
ν
\nu
ν 是
X
\mathcal{X}
X 上的有限 Borel 测度,
S
k
:
L
2
(
X
,
μ
)
→
C
(
X
)
,
S_k:L^2(\mathcal{X},\mu)\to C(\mathcal{X}),
Sk:L2(X,μ)→C(X),
(
S
k
f
)
(
x
)
=
∫
k
(
x
,
y
)
f
(
y
)
ν
(
d
y
)
,
f
∈
L
2
(
X
;
ν
)
.
(S_kf)(x)=\int k(x,y)f(y)\nu(dy),\quad f\in L^2(\mathcal{X};\nu).
(Skf)(x)=∫k(x,y)f(y)ν(dy),f∈L2(X;ν).
T
k
=
I
k
∘
S
k
T_k=I_k\circ S_k
Tk=Ik∘Sk, 其中
I
k
:
C
(
X
)
→
L
2
(
X
;
ν
)
I_k:C(\mathcal{X})\to L^2(\mathcal{X};\nu)
Ik:C(X)→L2(X;ν)。 容易证明
S
k
f
S_kf
Skf 是一个连续函数并且
T
k
T_k
Tk 是一个紧自伴算子。值得注意的是
T
k
f
T_kf
Tkf 是一个等价类(
C
(
X
→
L
2
(
X
;
ν
)
C(\mathcal{X}\to L^2(\mathcal{X};\nu)
C(X→L2(X;ν)决定了
ν
−
0
\nu-0
ν−0 可变。)
TH(Mercer’s Theorem)
k
k
k 是紧度量空间
X
\mathcal{X}
X 上的连续核,
ν
\nu
ν 是
X
\mathcal{X}
X 上的有限 Borel 测度,
s
u
p
p
ν
=
X
supp \;\nu=\mathcal{X}
suppν=X。 则对任意的
x
,
y
∈
X
x,y\in \mathcal{X}
x,y∈X,
k
(
x
,
y
)
=
∑
j
∈
J
λ
j
e
j
(
x
)
e
j
(
y
)
.
k(x,y)=\sum_{j\in J}\lambda_je_j(x)e_j(y).
k(x,y)=j∈J∑λjej(x)ej(y).
由 Mercer 定理我们可以给出 RKHS 的另一种形式:
TH:
k
k
k 是紧度量空间
X
\mathcal{X}
X 上的连续核, 定义
H
=
{
f
=
∑
j
∈
J
a
j
e
j
:
{
a
j
λ
j
}
∈
ℓ
2
(
J
)
}
\mathcal{H}=\{f=\sum_{j\in J}a_je_j:\{\frac{a_j}{\sqrt{\lambda_j}}\}\in\ell^2(J)\}
H={f=j∈J∑ajej:{λjaj}∈ℓ2(J)}其内积为
⟨
∑
j
∈
J
a
j
e
j
,
∑
j
∈
J
b
j
e
j
⟩
H
=
∑
j
∈
J
a
j
b
j
λ
j
.
\langle \sum_{j\in J}a_je_j, \sum_{j\in J}b_je_j\rangle_{\mathcal{H}}=\sum_{j\in J}\frac{a_jb_j}{\lambda_j}.
⟨j∈J∑ajej,j∈J∑bjej⟩H=j∈J∑λjajbj.则
H
=
H
k
\mathcal{H}=\mathcal{H}_k
H=Hk。
最后我们将探讨
H
k
\mathcal{H}_k
Hk 与
L
2
(
X
;
ν
)
L^2(\mathcal{X};\nu)
L2(X;ν) 之间的关系。 假定
{
e
~
j
}
j
∈
J
\{\tilde{e}_j\}_{j\in J}
{e~j}j∈J 是
L
2
(
X
;
ν
)
L^2(\mathcal{X};\nu)
L2(X;ν) 的一组正交基, i.e.
T
k
T_k
Tk 的特征值是严格正的。 记
f
^
(
j
)
=
⟨
f
,
e
~
j
⟩
L
2
\hat{f}(j)=\langle f,\tilde{e}_j\rangle_{L^2}
f^(j)=⟨f,e~j⟩L2 是
f
f
f 的 Fourier 系数, 则有之前讨论有
T
k
f
=
∑
j
∈
J
λ
j
f
^
(
j
)
e
~
j
,
f
∈
L
2
(
X
;
ν
)
,
T_kf=\sum_{j\in J}\lambda_j \hat{f}(j)\tilde{e}_j,\quad f\in L^2(\mathcal{X};\nu),
Tkf=j∈J∑λjf^(j)e~j,f∈L2(X;ν),
若果
T
k
=
T
k
1
2
∘
T
k
1
2
,
T_k=T_k^{\frac{1}{2}} \circ T_k^{\frac{1}{2}},
Tk=Tk21∘Tk21, 则
T
k
1
/
2
=
∑
j
∈
J
λ
j
f
^
(
j
)
e
~
j
T_k^{1/2}=\sum_{j\in J}\sqrt{\lambda_j} \hat{f}(j)\tilde{e}_j
Tk1/2=∑j∈Jλjf^(j)e~j 用
e
j
=
λ
j
−
1
S
k
e
~
j
e_j=\lambda_j^{-1}S_k\tilde{e}_j
ej=λj−1Ske~j代入有
∑
j
∈
J
∣
f
^
(
j
)
∣
2
=
∥
f
∥
L
2
<
∞
⇒
{
f
^
(
j
)
}
∈
ℓ
2
(
J
)
⇒
∑
j
∈
J
λ
j
f
^
(
j
)
e
j
∈
H
k
\sum_{j\in J}|\hat{f}(j)|^2=\Vert f\Vert _{L^2}<\infty \Rightarrow \{\hat{f}(j)\}\in \ell^2(J)\Rightarrow \sum_{j\in J}\sqrt{\lambda_j}\hat{f}(j)e_j \in \mathcal{H}_k
j∈J∑∣f^(j)∣2=∥f∥L2<∞⇒{f^(j)}∈ℓ2(J)⇒j∈J∑λjf^(j)ej∈Hk
这说明
T
k
1
/
2
T_k^{1/2}
Tk1/2 是
L
2
(
X
;
ν
)
L^2(\mathcal{X};\nu)
L2(X;ν) 到
H
k
\mathcal{H}_k
Hk 的同构映射。另外我们知道
λ
j
→
0
a
s
j
→
∞
\lambda_j\to 0 \;as \;j\to\infty
λj→0asj→∞, 结合
H
k
=
∑
j
∈
J
a
j
e
j
,
a
j
/
λ
j
∈
ℓ
2
(
J
)
\mathcal{H}_k=\sum_{j\in J}a_je_j,a_j/\sqrt{\lambda_j}\in\ell^2(J)
Hk=∑j∈Jajej,aj/λj∈ℓ2(J) 知
H
k
\mathcal{H}_k
Hk 比
L
2
(
X
,
μ
)
L^2(\mathcal{X},\mu)
L2(X,μ) “小得多”。
另外, RKHS 还有很多好的性质, 比如可分性、Gaussian RKHS 等, 可查找相关论文进一步了解。