核函数定义
《统计学习方法》中给出的核函数的定义为:
设
X
\mathcal{X}
X是输入空间(欧式空间
R
n
\mathbb {R}^n
Rn的子集或离散集合),
H
\mathcal{H}
H为特征空间(希尔伯特空间),如果存在一个从
X
\mathcal{X}
X到
H
\mathcal{H}
H的映射
ϕ
(
x
)
:
X
→
H
\phi(x): \mathcal{X}\rightarrow\mathcal{H}
ϕ(x):X→H
使得对所有
x
,
y
∈
X
x,y\in\mathcal{X}
x,y∈X,函数
K
(
x
,
y
)
K(x,y)
K(x,y)满足条件
K
(
x
,
y
)
=
<
ϕ
(
x
)
,
ϕ
(
y
)
>
K(x,y)=<\phi(x),\phi(y)>
K(x,y)=<ϕ(x),ϕ(y)>
则称
K
(
x
,
y
)
K(x,y)
K(x,y)为核函数,
ϕ
(
x
)
\phi(x)
ϕ(x)为映射函数。
- 对于给定的核 K ( x , y ) K(x,y) K(x,y),特征空间 H \mathcal{H} H和映射函数 ϕ \phi ϕ的取法不唯一。
由核函数的定义,确定一个核函数需要给出一个映射 ϕ \phi ϕ和一个希尔伯特空间(完备的内积空间) H \mathcal{H} H:已知映射函数 ϕ \phi ϕ,求其在希尔伯特空间 H \mathcal{H} H的内积可得核函数。
设
X
⊆
R
n
\mathcal{X}\subseteq\mathbb{R}^n
X⊆Rn,
K
(
x
,
y
)
K(x,y)
K(x,y)是定义在
X
×
X
\mathcal{X}\times\mathcal{X}
X×X上的对称函数,如果对任意
x
i
∈
X
,
i
=
1
,
2
,
.
.
.
,
m
x_i\in\mathcal{X}, i=1,2,...,m
xi∈X,i=1,2,...,m,
K
(
x
,
y
)
K(x,y)
K(x,y)对应的Gram矩阵
K
=
[
K
(
x
i
,
x
j
)
]
m
×
m
K=[K(x_i,x_j)]_{m\times m}
K=[K(xi,xj)]m×m
是半正定矩阵,则称
K
(
x
,
y
)
K(x,y)
K(x,y)是正定核。
- 正定核函数的定义不涉及其他未知量。在构造核函数时很有用。
正定核函数的 ϕ \phi ϕ及 H \mathcal{H} H
假设
K
(
x
,
y
)
K(x,y)
K(x,y)是定义在
X
×
X
\mathcal{X}\times\mathcal{X}
X×X上的对称函数,并且对任意
x
i
∈
X
,
i
=
1
,
2
,
.
.
.
,
m
x_i\in\mathcal{X}, i=1,2,...,m
xi∈X,i=1,2,...,m,
K
(
x
,
y
)
K(x,y)
K(x,y)对应的Gram矩阵是半正定的,定义映射
ϕ
:
x
→
K
(
⋅
,
x
)
\phi:x\rightarrow K(\cdot,x)
ϕ:x→K(⋅,x)
接下来将
ϕ
\phi
ϕ的像空间完备化为一个希尔伯特空间:
定义集合
S
=
{
f
(
⋅
)
=
∑
i
=
1
m
α
i
K
(
⋅
,
x
i
)
∣
∀
x
i
∈
X
,
α
i
∈
R
,
i
=
1
,
2
,
.
.
.
,
m
}
\mathcal{S}=\{f(\cdot)=\sum_{i=1}^m\alpha_iK(\cdot,x_i) | \forall x_i\in\mathcal{X},\alpha_i\in\mathbb{R},i=1,2,...,m\}
S={f(⋅)=i=1∑mαiK(⋅,xi)∣∀xi∈X,αi∈R,i=1,2,...,m}
由于集合
S
\mathcal{S}
S对加法和数乘运算是封闭的,所以
S
\mathcal{S}
S构成一个向量空间。
在
S
\mathcal{S}
S上定义内积运算
<
⋅
,
⋅
>
<\cdot,\cdot>
<⋅,⋅>(非负,对称,线性):
∀
f
,
g
∈
S
\forall f,g\in\mathcal{S}
∀f,g∈S
f
(
⋅
)
=
∑
i
=
1
m
α
i
K
(
⋅
,
x
i
)
,
g
(
⋅
)
=
∑
j
=
1
l
β
j
K
(
⋅
,
y
j
)
f(\cdot)=\sum_{i=1}^m\alpha_iK(\cdot,x_i) ,\quad g(\cdot)=\sum_{j=1}^l\beta_jK(\cdot,y_j)
f(⋅)=i=1∑mαiK(⋅,xi),g(⋅)=j=1∑lβjK(⋅,yj)
<
f
,
g
>
=
∑
i
=
1
m
∑
j
=
1
l
α
i
β
j
K
(
x
i
,
y
j
)
<f,g>=\sum_{i=1}^m\sum_{j=1}^l\alpha_i\beta_jK(x_i,y_j)
<f,g>=i=1∑mj=1∑lαiβjK(xi,yj)
定义了内积运算的向量空间
S
\mathcal{S}
S为内积空间。
由内积诱导的范数:
∣
∣
f
∣
∣
=
<
f
,
f
>
||f||=\sqrt{<f,f>}
∣∣f∣∣=<f,f>
则
S
\mathcal{S}
S是一个赋范向量空间。
根据泛函分析理论,对于不完备的赋范向量空间
S
\mathcal{S}
S,一定可以使之完备化,得到完备的赋范向量空间
H
\mathcal{H}
H。一个内积空间,当作为一个赋范向量空间是完备的时候,就是希尔伯特空间,即
H
\mathcal{H}
H是希尔伯特空间。
这样,对上述给定的满足对称性、正定性的函数
K
(
x
,
y
)
K(x,y)
K(x,y),可以构造由
X
\mathcal{X}
X到希尔伯特空间
H
\mathcal{H}
H的映射:
ϕ
:
x
→
K
(
⋅
,
x
)
\phi:x\rightarrow K(\cdot,x)
ϕ:x→K(⋅,x)
由内积的定义
<
K
(
⋅
,
x
)
,
f
(
⋅
)
>
=
∑
i
=
1
m
α
i
K
(
x
,
x
i
)
=
f
(
x
)
<K(\cdot,x),f(\cdot)>=\sum_{i=1}^m\alpha_iK(x,x_i)=f(x)
<K(⋅,x),f(⋅)>=i=1∑mαiK(x,xi)=f(x)
<
ϕ
(
x
)
,
ϕ
(
y
)
>
=
<
K
(
⋅
,
x
)
,
K
(
⋅
,
y
)
>
=
K
(
x
,
y
)
<\phi(x),\phi(y)>=<K(\cdot,x),K(\cdot,y)>=K(x,y)
<ϕ(x),ϕ(y)>=<K(⋅,x),K(⋅,y)>=K(x,y)
说明
K
K
K为核函数。
核的再生性: < K ( ⋅ , x ) , f ( ⋅ ) > = f ( x ) <K(\cdot,x),f(\cdot)>=f(x) <K(⋅,x),f(⋅)>=f(x), < K ( ⋅ , x ) , K ( ⋅ , y ) > = K ( x , y ) <K(\cdot,x),K(\cdot,y)>=K(x,y) <K(⋅,x),K(⋅,y)>=K(x,y)。
类比有限空间
欧式空间 R n \mathbb {R}^n Rn | 平方可积函数空间 L 2 ( f ) \mathbb{L}^2(f) L2(f) | |
---|---|---|
向量加法结合律 | x + ( y + z ) = ( x + y ) + z x+(y+z)=(x+y)+z x+(y+z)=(x+y)+z | f ( x ) + [ g ( x ) + h ( x ) ] f(x)+[g(x)+h(x)] f(x)+[g(x)+h(x)] |
向量加法交换律 | x + y = y + x x+y=y+x x+y=y+x | f ( x ) + g ( x ) = g ( x ) + f ( x ) f(x)+g(x)=g(x)+f(x) f(x)+g(x)=g(x)+f(x) |
向量加法单位元 | x + 0 = x x+0=x x+0=x | f ( x ) + 0 = f ( x ) f(x)+0=f(x) f(x)+0=f(x) |
向量加法逆元 | ∀ x ∈ R n , ∃ y ∈ R n s . t x + y = 0 \forall x\in\mathbb {R}^n, \exist y\in \mathbb {R}^n s.t x+y=0 ∀x∈Rn,∃y∈Rns.tx+y=0 | ∀ f ( x ) ∈ L 2 ( f ) , ∃ g ( x ) ∈ L 2 ( f ) s . t f ( x ) + g ( x ) = 0 \forall f(x)\in\mathbb {L}^2(f), \exist g(x)\in \mathbb {L}^2(f) s.t f(x)+g(x)=0 ∀f(x)∈L2(f),∃g(x)∈L2(f)s.tf(x)+g(x)=0 |
标量乘法对向量加法分配律 | a ( x + y ) = a x + a y a(x+y)=ax+ay a(x+y)=ax+ay | a ( f ( x ) + g ( x ) ) = a f ( x ) + a g ( x ) a(f(x)+g(x))=af(x)+ag(x) a(f(x)+g(x))=af(x)+ag(x) |
标量乘法对域加法分配律 | ( a + b ) x = a x + b x (a+b)x=ax+bx (a+b)x=ax+bx | ( a + b ) f ( x ) = a f ( x ) + b f ( x ) (a+b)f(x)=af(x)+bf(x) (a+b)f(x)=af(x)+bf(x) |
标量乘法与标量的域相容 | a ( b x ) = ( a b ) x a(bx)=(ab)x a(bx)=(ab)x | a ( b f ( x ) ) = ( a b ) f ( x ) a(bf(x))=(ab)f(x) a(bf(x))=(ab)f(x) |
标量乘法单位元 | 1 x = x 1x=x 1x=x | 1 f ( x ) = f ( x ) 1f(x)=f(x) 1f(x)=f(x) |
内积 | < x , y > = ∑ i = 1 n x i y i <x,y>=\sum_{i=1}^n x_i y_i <x,y>=∑i=1nxiyi | < f ( x ) , g ( x ) > = ∫ x f ( x ) g ( x ) d x <f(x),g(x)>=\int_{x}f(x)g(x)dx <f(x),g(x)>=∫xf(x)g(x)dx |
数域 F \mathbb{F} F, a , b ∈ F a,b\in\mathbb{F} a,b∈F, x , y , z ∈ R n x,y,z\in\mathbb {R}^n x,y,z∈Rn, f ( x ) , g ( x ) , h ( x ) ∈ L 2 ( f ) f(x),g(x),h(x)\in\mathbb{L}^2(f) f(x),g(x),h(x)∈L2(f)。( L 2 ( f ) \mathbb{L}^2(f) L2(f)是希尔伯特空间)
对比上表中两列,函数可以看作无限维向量,那么,以两个的独立的变量为自变量的函数 K ( ⋅ , ⋅ ) K(\cdot,\cdot) K(⋅,⋅),可以看作是无限维的矩阵,在这样的“矩阵”中,满足对称、正定的,即是核函数(kernel function)。
特征值与特征函数
类比矩阵中的特征值与特征向量
A
T
x
=
λ
x
A^Tx=\lambda x
ATx=λx,存在特征值
λ
\lambda
λ与特征函数
ψ
(
x
)
\psi(x)
ψ(x),使得
∫
K
(
x
,
y
)
ψ
(
x
)
d
x
=
λ
ψ
(
y
)
\int K(x,y)\psi(x)dx=\lambda \psi(y)
∫K(x,y)ψ(x)dx=λψ(y)
对于两个不相等的特征值
λ
1
\lambda_1
λ1、
λ
2
\lambda_2
λ2及其相应的特征函数
ψ
1
(
x
)
\psi_1(x)
ψ1(x)、
ψ
2
(
x
)
\psi_2(x)
ψ2(x),有
∫
λ
1
ψ
1
(
x
)
ψ
2
(
x
)
d
x
=
∫
∫
K
(
y
,
x
)
ψ
1
(
y
)
d
y
ψ
2
(
x
)
d
x
=
∫
∫
K
(
x
,
y
)
ψ
1
(
x
)
d
x
ψ
2
(
y
)
d
y
=
∫
λ
2
ψ
2
(
y
)
ψ
1
(
y
)
d
y
=
∫
λ
2
ψ
2
(
x
)
ψ
1
(
x
)
d
x
\begin{aligned} \int\lambda_1\psi_1(x)\psi_2(x)dx&=\int\int K(y,x)\psi_1(y)dy\psi_2(x)dx\\ &=\int\int K(x,y)\psi_1(x)dx\psi_2(y)dy\\ &=\int\lambda_2 \psi_2(y)\psi_1(y)dy\\ &=\int\lambda_2\psi_2(x)\psi_1(x)dx \end{aligned}
∫λ1ψ1(x)ψ2(x)dx=∫∫K(y,x)ψ1(y)dyψ2(x)dx=∫∫K(x,y)ψ1(x)dxψ2(y)dy=∫λ2ψ2(y)ψ1(y)dy=∫λ2ψ2(x)ψ1(x)dx
因此
<
ψ
1
,
ψ
2
>
=
∫
ψ
1
(
x
)
ψ
2
(
x
)
d
x
=
0
<\psi_1,\psi_2>=\int\psi_1(x)\psi_2(x)dx=0
<ψ1,ψ2>=∫ψ1(x)ψ2(x)dx=0
表明不同特征值对应的特征函数正交。
对于一个核函数,有可列个特征值
{
λ
i
}
i
=
1
∞
\{\lambda_i\}_{i=1}^\infty
{λi}i=1∞,可列个特征函数
{
ψ
i
}
i
=
1
∞
\{\psi_i\}_{i=1}^\infty
{ψi}i=1∞,类似于矩阵的特征值分解
A
=
Q
Σ
Q
T
A=Q\Sigma Q^T
A=QΣQT,有
K
(
x
,
y
)
=
∑
i
=
0
∞
λ
i
ψ
i
(
x
)
ψ
i
(
y
)
K(x,y)=\sum_{i=0}^\infty \lambda_i\psi_i(x)\psi_i(y)
K(x,y)=i=0∑∞λiψi(x)ψi(y)
该结果由Mercer定理表述。
{
ψ
i
}
i
=
1
∞
\{\psi_i\}_{i=1}^\infty
{ψi}i=1∞可以作为函数空间的一组正交基。
再生核希尔伯特空间
设
K
(
⋅
,
⋅
)
K(\cdot,\cdot)
K(⋅,⋅)为一个核函数(无限维矩阵);
K
(
⋅
,
x
)
K(\cdot,x)
K(⋅,x)固定了一个参数,可以看作一个无限维向量(矩阵
K
(
⋅
,
⋅
)
K(\cdot,\cdot)
K(⋅,⋅)的第
x
x
x列);
K
(
x
,
y
)
K(x,y)
K(x,y)表示核函数
K
(
⋅
,
⋅
)
K(\cdot,\cdot)
K(⋅,⋅)在点
x
,
y
x,y
x,y处的值。
由Mercer定理,
K
(
x
,
⋅
)
=
∑
i
=
0
∞
λ
i
ψ
i
(
x
)
ψ
i
(
⋅
)
K(x,\cdot)=\sum_{i=0}^\infty \lambda_i\psi_i(x)\psi_i(\cdot)
K(x,⋅)=i=0∑∞λiψi(x)ψi(⋅)
将
{
λ
i
ψ
i
}
i
=
1
∞
\{\sqrt{\lambda_i}\psi_i\}_{i=1}^\infty
{λiψi}i=1∞作为一组正交基构成希尔伯特空间
H
\mathcal{H}
H,在这组基下,可写
K
(
x
,
⋅
)
=
(
λ
1
ψ
1
,
λ
2
ψ
2
,
.
.
.
)
H
T
K(x,\cdot)=(\sqrt{\lambda_1}\psi_1,\sqrt{\lambda_2}\psi_2,...)^T_\mathcal{H}
K(x,⋅)=(λ1ψ1,λ2ψ2,...)HT
类似欧式空间汇中内积,
<
K
(
X
,
⋅
)
,
K
(
y
,
⋅
)
>
H
=
∑
i
=
0
∞
λ
i
ψ
i
(
x
)
ψ
i
(
y
)
=
K
(
x
,
y
)
<K(X,\cdot),K(y,\cdot)>_\mathcal{H}=\sum_{i=0}^\infty \lambda_i\psi_i(x)\psi_i(y)=K(x,y)
<K(X,⋅),K(y,⋅)>H=i=0∑∞λiψi(x)ψi(y)=K(x,y)
定义
X
\mathcal{X}
X到
H
\mathcal{H}
H的映射
Φ
\Phi
Φ
Φ
(
x
)
=
K
(
x
,
⋅
)
=
(
λ
1
ψ
1
,
λ
2
ψ
2
,
.
.
.
)
H
T
\Phi(x)=K(x,\cdot)=(\sqrt{\lambda_1}\psi_1,\sqrt{\lambda_2}\psi_2,...)^T_\mathcal{H}
Φ(x)=K(x,⋅)=(λ1ψ1,λ2ψ2,...)HT
则
<
Φ
(
x
)
,
Φ
(
y
)
>
H
=
<
K
(
X
,
⋅
)
,
K
(
y
,
⋅
)
>
H
=
K
(
x
,
y
)
<\Phi(x),\Phi(y)>_\mathcal{H}=<K(X,\cdot),K(y,\cdot)>_\mathcal{H}=K(x,y)
<Φ(x),Φ(y)>H=<K(X,⋅),K(y,⋅)>H=K(x,y)
常见核函数
多项式核函数(polynomial kernel function)
K ( x , y ) = ( x y + 1 ) p K(x,y)=(xy+1)^p K(x,y)=(xy+1)p
高斯核函数(Gaussian kernel function)/高斯径向基函数
K ( x , y ) = e x p ( − ∣ ∣ x − y ∣ ∣ 2 2 σ 2 ) K(x,y)=exp(-\frac{||x-y||^2}{2\sigma^2}) K(x,y)=exp(−2σ2∣∣x−y∣∣2)
参考:
核函数详解
统计学习方法—李航