1 内积核
令
x
x
x表示从输入空间中取出的向量,假定维数为
m
0
m_0
m0。令
{
φ
j
(
x
)
}
j
=
1
∞
\lbrace \varphi_j(x) \rbrace _{j=1}^ \infty
{φj(x)}j=1∞表示一系列非线性函数的集合,从维数
m
0
m_0
m0的输入空间转换成无限输出空间,给出这样的变换,可定义一超平面:
(1)
∑
j
=
1
∞
w
j
φ
j
(
x
)
=
0
\sum _{j=1} ^{\infty} w_j \varphi_j(x) = 0 \tag{1}
j=1∑∞wjφj(x)=0(1)
其中
{
w
j
(
x
)
}
j
=
1
∞
\lbrace w_j(x) \rbrace _{j=1}^ \infty
{wj(x)}j=1∞表示把特征空间转换成输出空间的无限大的权值集合。在输出空间中,由决策平面决定输入空间中的点x属于两个可能类之一:正例或者反例。
为了表示方便,写成如下形式:
(2)
W
T
Φ
(
x
)
=
0
W^T\Phi(x) = 0 \tag{2}
WTΦ(x)=0(2)
其中
Φ
(
x
)
\Phi(x)
Φ(x)是特征向量,
W
W
W是权重向量。
(3)
W
=
∑
i
=
1
N
i
a
i
d
i
Φ
(
x
i
)
W = \sum _{i=1} ^{N_i} a_id_i \Phi(x_i) \tag{3}
W=i=1∑NiaidiΦ(xi)(3)
特征向量表示为:
(4)
Φ
(
x
i
)
=
[
φ
1
(
x
i
)
,
φ
2
(
x
i
)
,
.
.
.
]
T
\Phi(x_i) = [ \varphi_1(x_i) , \varphi_2(x_i),... ]^T \tag{4}
Φ(xi)=[φ1(xi),φ2(xi),...]T(4)
于是得:
(5)
∑
i
=
1
N
i
a
i
d
i
Φ
T
(
x
i
)
Φ
(
x
)
=
0
\sum _{i=1} ^{N_i} a_id_i \Phi ^T(x_i) \Phi (x)=0 \tag{5}
i=1∑NiaidiΦT(xi)Φ(x)=0(5)
Φ
T
(
x
i
)
Φ
(
x
)
\Phi ^T(x_i) \Phi (x)
ΦT(xi)Φ(x)代表一个内积,这个内积可写成:
(6)
k
(
x
,
x
i
)
=
Φ
T
(
x
i
)
Φ
(
x
)
=
∑
j
=
1
∞
φ
j
(
x
i
)
φ
j
(
x
)
k(x,x_i) = \Phi ^T(x_i) \Phi (x) =\sum _{j=1}^{ \infty} \varphi_j(x_i) \varphi_j(x) \tag{6}
k(x,xi)=ΦT(xi)Φ(x)=j=1∑∞φj(xi)φj(x)(6)
相应的可以将输出空间的决策平面写成:
(7)
∑
i
=
1
N
s
a
i
d
i
k
(
x
,
x
i
)
=
0
\sum _{i=1} ^{N_s} a_id_i k(x,x_i) = 0 \tag{7}
i=1∑Nsaidik(x,xi)=0(7)
函数
k
(
x
,
x
i
)
k(x,x_i)
k(x,xi)被称为内积核,定义如下:
核
k
(
x
,
x
i
)
k(x,x_i)
k(x,xi)是这样一种函数,计算嵌入
Φ
\Phi
Φ输入空间的两个数据点在特征空间中像的内积。
特点 1 内积核是自变量的对称函数,表示为
k
(
x
,
x
i
)
k(x,x_i)
k(x,xi) =
k
(
x
i
,
x
)
k(x_i,x)
k(xi,x),对所有的
x
i
x_i
xi
当
x
=
x
i
x=x_i
x=xi时达到最大值。
特点 2 在一个平面上核函数
k
(
x
i
,
x
)
k(x_i,x)
k(xi,x)的总和是一个常数。
2 核技巧
(1)就模式分类的输出空间而言,具体指核函数
k
(
x
,
x
i
)
k(x,x_i)
k(x,xi)是充分的,换句话说,无需显示计算出权重向量
w
0
w_0
w0;
(2)即使假设特征空间是无限维的,但式7也定义了包括有限项的最优超平面,项的数目与分类器中训练模式的个数相等;
将核函数
k
(
x
i
,
x
j
)
k(x_i,x_j)
k(xi,xj)看成一个NxN对称矩阵的ij元素矩阵
(8)
K
=
{
k
(
x
i
,
x
j
)
}
i
,
j
=
1
N
K = \lbrace k (x_i,x_j)\rbrace _{i,j=1} ^N \tag{8}
K={k(xi,xj)}i,j=1N(8)
K是一个非负定矩阵,被称为核矩阵,通常称为Gram矩阵,它的非负性或者办正定性是指对于任何与矩阵K可以相容的实向量a满足以下条件:
a
T
K
a
≥
0
a^TKa \geq 0
aTKa≥0
3 Mercer定理
k
(
x
,
x
′
)
k(x,x^{'})
k(x,x′)表示一个连续的对称核,其中
x
x
x定义在闭区间
a
≤
x
≤
b
a\leq x\leq b
a≤x≤b上,
x
′
x^{'}
x′和
x
x
x类似。核函数
k
(
x
,
x
′
)
k(x,x^{'})
k(x,x′)可以被展开为级数:
(9)
k
(
x
,
x
′
)
=
∑
i
=
1
∞
λ
i
φ
i
(
x
)
φ
i
(
x
′
)
k(x,x^{'}) = \sum _{i=1}^ {\infty} \lambda_i \varphi_i(x) \varphi_i(x^{'}) \tag{9}
k(x,x′)=i=1∑∞λiφi(x)φi(x′)(9)
为保证上述公式成立,需要满足下列充分必要条件:
∫
b
a
∫
b
a
k
(
x
,
x
′
φ
i
(
x
)
φ
i
(
x
′
)
d
x
d
x
′
\int_b ^a \int _b^a k(x,x^{'} \varphi_i(x) \varphi_i(x^{'})dxdx{'}
∫ba∫bak(x,x′φi(x)φi(x′)dxdx′
对于所有的
φ
(
.
)
\varphi(.)
φ(.)成立,这样有:
∫
b
a
φ
2
(
x
)
d
x
<
∞
\int _b ^a \varphi ^2(x)dx < \infty
∫baφ2(x)dx<∞
成立,其中a和b是实整数。
φ
i
(
x
)
\varphi_i(x)
φi(x)称为展开的特征函数,
λ
i
\lambda_i
λi称为特征值
Mercer定理告诉我们有的空间存在一个候选的核是积核,并没有告诉如何去构造 φ i ( x ) \varphi_i(x) φi(x),需要自己去构造。