欢迎访问我的个人博客https://qddmj.cn,有更多最新的内容
RKHS系列文章点此进入
上一章讨论了RKHS相关的定义,我们知道了只要找到一个正定的核函数(positive define kernel),那么一定有这样一个希尔伯特空间,里面的所有元素可以用 f ( x ) = ⟨ f ( ⋅ ) , k ( ⋅ , x ) ⟩ , ∀ f ∈ H f(x)=\langle f(\cdot),k(\cdot,x)\rangle , \forall f\in \mathcal{H} f(x)=⟨f(⋅),k(⋅,x)⟩,∀f∈H“再生”出来,利用这个性质可以让我们用核函数代替内积。
现在我们准备深入RKHS看看。首先,我们有两条路可以证明核函数可以构成一个RKHS。
- Mercer’s Theorem
- Moore-Aronszajn’s Theorem
这一章来证明第一个命题:Mecer’s Theorem。我们上一篇博客给出了核函数的概念,Mecer’s Theorem比核函数的现代定义出现得要早,因此Mercer理论中的核函数定义稍有不同,显得更为严格一些。Moore-Aronszajn’s Theorem是后来发展的,现代用的比较多,它的核函数定义更为宽松,更为一般。
Mercer’s Theorem:
设 k k k 是 [ a , b ] × [ a , b ] [a,b]\times[a,b] [a,b]×[a,b]上的连续、对称的实变函数,假设对所有的 f ∈ L 2 ( [ a , b ] ) f\in L_2([a,b]) f∈L2([a,b]),都有:
∫ a b ∫ a b k ( t , s ) f ( s ) f ( t ) d s d t ≥ 0. (1) \int_a^b\int_a^bk(t,s)f(s)f(t)ds\ dt \ge 0. \tag{1} ∫ab∫abk(t,s)f(s)f(t)ds dt≥0.(1)
设 K K K 是以核函数 k k k 为基础的积分算子,即:
( K f ) ( t ) = ∫ a b k ( t , s ) f ( s ) d s (2) (Kf)(t)=\int_a^bk(t,s)f(s)ds \tag{2} (Kf)(t)=∫abk(t,s)f(s)ds(2)
设 { ϕ n } , { λ n } \{\phi_n\},\{\lambda_n\} {
ϕn},{
λn}是算子 K K K的特征向量和特征函数,那么对 [ a , b ] [a,b] [a,b]上所有的 t t t 和 s s s ,都有:
k ( t , s ) = ∑ j λ j ϕ j ( t ) ϕ j ( s ) . (3) k(t,s)=\sum_j\lambda_j\phi_j(t)\phi_j(s). \tag{3} k(t,s)=j∑λjϕj(t)ϕj(s).(3)
这个级数在 [ a , b ] × [ a , b ] [a,b]\times[a,b] [a,b]×[a,b]上绝对收敛并且一致收敛。
Mercer’s Theorem的证明
在Mecer的原论文[3]中,这个证明十分复杂。感兴趣的读者可以去看看这篇1908年的数学论文。我没有耐心看完,当时找了很多资料,包括文献[4],他们的证明大概分为两个步骤:
1.证明 ∑ j λ j ϕ j 2 ( s ) \sum_j\lambda_j\phi^2_j(s) ∑jλjϕj2(s)一致收敛至 k ( s , s ) k(s,s) k(s,s)
2.证明 ∑ j λ j ϕ j ( t ) ϕ j ( s ) \sum_j\lambda_j\phi_j(t)\phi_j(s) ∑jλjϕj(t)ϕj(s)一致收敛至 k ( s , t ) k(s,t) k(s,t)
第一个步骤所有资料包括原文都比较简明易懂,复杂的地方主要在第二步,原文花了很长的篇幅、构造了一些中间算子,才证明了它一致收敛,这个过程我看得很吃力,没有完全看懂。而文献[4]只是提了一下用Schwarz不等式就可以证明2,但没有详细说明。
这个坑困扰了我一两周时间,我能查到的所有博客和StackExchange均没有给出令人信服的证明,比如这个Uniform convergence in Mercer Theorem for bounded kernels;它们几乎都是证明到第一步就停了,第二步和我尝试利用Schwarz不等式得到的结论一样:
∑ j ∣ λ j ϕ j ( t ) ϕ j ( s ) ∣ ≤ k ( s , s ) 1 / 2 k ( t , t ) 1 / 2 (4) \sum_j|\lambda_j\phi_j(t)\phi_j(s)|\le k(s,s)^{1/2}k(t,t)^{1/2} \tag{4} j∑∣λjϕj(t)ϕj(s)∣≤k(s,s)1/2k(t