SVM3

4 非线性支持向量机与核函数

**4.1 非线性分类问题:**如下图所示,通过变换,将椭圆变为直线,非线性分类问题变为了线性分类问题

在这里插入图片描述

原空间为 X ⊂ R 2 , x = ( x ( 1 ) , x ( 2 ) ) T ∈ X \mathcal{X} \subset \mathbf{R}^{2}, x=\left(x^{(1)}, x^{(2)}\right)^{\mathrm{T}} \in \mathcal{X} XR2,x=(x(1),x(2))TX,新空间为 Z ⊂ R 2 , z = ( z ( 1 ) , z ( 2 ) ) T ∈ Z \mathcal{Z} \subset \mathbf{R}^{2}, z=\left(z^{(1)}, z^{(2)}\right)^{\mathrm{T}} \in \mathcal{Z} ZR2,z=(z(1),z(2))TZ,从原空间到新空间的变换(映射)为: z = ϕ ( x ) = ( ( x ( 1 ) ) 2 , ( x ( 2 ) ) 2 ) T z=\phi(x)=\left(\left(x^{(1)}\right)^{2},\left(x^{(2)}\right)^{2}\right)^{\mathrm{T}} z=ϕ(x)=((x(1))2,(x(2))2)T

原空间的椭圆 w 1 ( x ( 1 ) ) 2 + w 2 ( x ( 2 ) ) 2 + b = 0 w_{1}\left(x^{(1)}\right)^{2}+w_{2}\left(x^{(2)}\right)^{2}+b=0 w1(x(1))2+w2(x(2))2+b=0,变为新空间的直线 w 1 z ( 1 ) + w 2 z ( 2 ) + b = 0 w_{1} z^{(1)}+w_{2} z^{(2)}+b=0 w1z(1)+w2z(2)+b=0,在新空间中线性可分

4.2 核技巧: X \mathcal{X} X是输入空间(欧氏空间 R n \mathbf{R}^{n} Rn或者离散集合),对应于一个特征空间(希尔伯特空间 H \mathcal{H} H),如果存在一个 X \mathcal{X} X H \mathcal{H} H的映射: ϕ ( x ) : X → H \phi(x): \mathcal{X} \rightarrow \mathcal{H} ϕ(x):XH,使得所有的 x , z ∈ X x, z \in \mathcal{X} x,zX,函数 K ( x , z ) K(x, z) K(x,z)满足条件: K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x, z)=\phi(x) \cdot \phi(z) K(x,z)=ϕ(x)ϕ(z),则称 K ( x , z ) K(x, z) K(x,z)核函数 ϕ ( x ) \phi(x) ϕ(x)为映射函数,式中 ϕ ( x ) ⋅ ϕ ( z ) \phi(x) \cdot \phi(z) ϕ(x)ϕ(z)为两者的内积

在学习和预测时只定义核函数 K ( x , z ) K(x, z) K(x,z),不显式定义映射函数 ϕ \phi ϕ直接计算 K ( x , z ) K(x, z) K(x,z)比较容易,通过 ϕ ( x ) \phi(x) ϕ(x) ϕ ( z ) \phi(z) ϕ(z)计算 K ( x , z ) K(x, z) K(x,z)并不容易。对于给定核函数 K ( x , z ) K(x, z) K(x,z),特征空间 H \mathcal{H} H和映射函数 ϕ ( x ) \phi(x) ϕ(x)的取法不唯一

将支持向量机对偶问题目标函数中的内积 x i ⋅ x j x_{i} \cdot x_{j} xixj替换为核函数 K ( x i , x j ) = ϕ ( x i ) ⋅ ϕ ( x j ) K\left(x_{i}, x_{j}\right)=\phi\left(x_{i}\right) \cdot \phi\left(x_{j}\right) K(xi,xj)=ϕ(xi)ϕ(xj),新的目标函数为:
W ( α ) = 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j K ( x i , x j ) − ∑ i = 1 N α i W(\alpha)=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} W(α)=21i=1Nj=1NαiαjyiyjK(xi,xj)i=1Nαi
新的分类决策函数为:
f ( x ) = sign ⁡ ( ∑ i = 1 N s a i ∗ y i ϕ ( x i ) ⋅ ϕ ( x ) + b ∗ ) = sign ⁡ ( ∑ i = 1 N s a i ∗ y i K ( x i , x ) + b ∗ ) f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i} \phi\left(x_{i}\right) \cdot \phi(x)+b^{*}\right)=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i} K\left(x_{i}, x\right)+b^{*}\right) f(x)=sign(i=1Nsaiyiϕ(xi)ϕ(x)+b)=sign(i=1NsaiyiK(xi,x)+b)
这样,不需显式定义特征空间和映射函数,隐式地在特征空间中学习;通过线性分类器学习和核函数解决非线性问题

核函数是正定核函数,正定核函数的定义是:设 X ⊂ R n \mathcal{X} \subset \mathbf{R}^{n} XRn K ( x , z ) K(x, z) K(x,z)是定义在 X × X \mathcal{X} \times \mathcal{X} X×X上的对称函数,如果对任意 x i ∈ X x_{i} \in \mathcal{X} xiX i = 1 , 2 , ⋯   , m i=1,2, \cdots, m i=1,2,,m K ( x , z ) K(x, z) K(x,z)对应的Gram矩阵:
K = [ K ( x i , x j ) ] m × m K=\left[K\left(x_{i}, x_{j}\right)\right]_{m \times m} K=[K(xi,xj)]m×m
是半正定矩阵,则称 K ( x , z ) K(x, z) K(x,z)是正定核

常用核函数:

  • 多项式核函数:
    K ( x , z ) = ( x ⋅ z + 1 ) p f ( x ) = sign ⁡ ( ∑ i = 1 N i a i ∗ y i ( x i ⋅ x + 1 ) p + b ∗ ) K(x, z)=(x \cdot z+1)^{p}\\ f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{i}} a_{i}^{*} y_{i}\left(x_{i} \cdot x+1\right)^{p}+b^{*}\right) K(x,z)=(xz+1)pf(x)=sign(i=1Niaiyi(xix+1)p+b)

  • 高斯核函数:
    K ( x , z ) = exp ⁡ ( − ∥ x − z ∥ 2 2 σ 2 ) f ( x ) = sign ⁡ ( ∑ i = 1 N i a i ∗ y i exp ⁡ ( − ∥ x − z ∥ 2 2 σ 2 ) + b ∗ ) K(x, z)=\exp \left(-\frac{\|x-z\|^{2}}{2 \sigma^{2}}\right)\\ f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{i}} a_{i}^{*} y_{i} \exp \left(-\frac{\|x-z\|^{2}}{2 \sigma^{2}}\right)+b^{*}\right) K(x,z)=exp(2σ2xz2)f(x)=sign(i=1Niaiyiexp(2σ2xz2)+b)

  • 字符串核函数:
    k n ( s , t ) = ∑ u ∈ Σ n [ ϕ n ( s ) ] u [ ϕ n ( t ) ] u = ∑ u ∈ Σ n ∑ ( i , j ) : s ( i ) = t ( j ) = u λ l ( i ) λ l ( j ) k_{n}(s, t)=\sum_{u \in \Sigma^{n}}\left[\phi_{n}(s)\right]_{u}\left[\phi_{n}(t)\right]_{u}=\sum_{u \in \Sigma^{n}}\sum_{(i, j): s(i)=t(j)=u} \lambda^{l(i)} \lambda^{l(j)} kn(s,t)=uΣn[ϕn(s)]u[ϕn(t)]u=uΣn(i,j):s(i)=t(j)=uλl(i)λl(j)
    给出了字符串 s s s t t t中长度等于 n n n的所有子串组成的特征向量的余弦相似度。直觉上,相同的子串越多,越相似,字符串核函数值越大。

4.3 非线性支持向量机学习算法:

输入: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),,(xN,yN)},其中 x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } x_{i} \in \mathcal{X}=\mathbf{R}^{n},y_{i} \in \mathcal{Y}=\{+1,-1\} xiX=Rn,yiY={+1,1} i = 1 , 2 , ⋯   , N i=1,2, \cdots, N i=1,2,,N x i x_i xi是第 i i i个特征向量,也称为实例, y i y_i yi x i x_i xi的类别标记

**输出:**分类决策函数

  • 选取适当的核函数 K ( x , z ) K(x, z) K(x,z)和适当的参数 C C C,构造并求解最优化问题:
    min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j K ( x i , x j ) − ∑ i = 1 N α i  s.t.  ∑ i = 1 N α i y i = 0 0 ⩽ α i ⩽ C , i = 1 , 2 , ⋯   , N \begin{array}{ll}{\min _{\alpha}} & {\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}} \\ {\text { s.t. }} & {\sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {} & {0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N}\end{array} minα s.t. 21i=1Nj=1NαiαjyiyjK(xi,xj)i=1Nαii=1Nαiyi=00αiC,i=1,2,,N
    求得最优解: α ∗ = ( α 1 ∗ , α 2 ∗ , ⋯   , α N ∗ ) T \alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}} α=(α1,α2,,αN)T

  • 选择 α ∗ \alpha^{*} α的一个正向量 0 < α j ∗ < C 0<\alpha_{j}^{*}<C 0<αj<C,计算 b ∗ = y j − ∑ i = l N α i ∗ y i K ( x i ⋅ x j ) b^{*}=y_{j}-\sum_{i=l}^{N} \alpha_{i}^{*} y_{i} K\left(x_{i} \cdot x_{j}\right) b=yji=lNαiyiK(xixj)

  • 构造决策函数: f ( x ) = sign ⁡ ( ∑ i = 1 N α i ∗ y i K ( x ⋅ x i ) + b ∗ ) f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x \cdot x_{i}\right)+b^{*}\right) f(x)=sign(i=1NαiyiK(xxi)+b)

    K ( x , z ) K(x, z) K(x,z)是正定核函数时,待求解的最优化问题为凸二次规划问题,解存在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值