SVM——传说中的核技巧

SVM说白了,就分三种应用方式:

    (1)线性可分(硬间隔)

    (2)线性不可分,但大致可分(软间隔)

    (3)线性不可分,最优超平面误差极大,如异或问题区分{(0,0),(1,1)}和{(0,1),(1,0)}这两类,超平面无最优解,至少都有50%的误差,于是就要用到传说中的核函数(核技巧)

       这篇文章将通过简单的例子,解释下这传说中的核技巧思想。其实说到底,SVM是数据挖掘中较为高效的二分类算法,但是如果遇到了线性不可分的情况(异或问题),SVM仍然想完成线性可分,那么在原来的样本空间内显然无法完成,但根据Cover模式可分性定理——指不定把样本映射到一个更高维的空间就可以实现线性可分了,于是核技巧应运而生!即通过核函数将原来的m0维的样本转换到另一个m1维空间(m1>=m0):

        假设存在线性不可分的N个m0维的向量   x1,...,xN,分为C1和C2两类,于是可通过这样一组函数(输入为向量,输出为一实数):φ1(x),φ2(x),...,φm1(x) 是是,就可以将m0维的样本转换为m1维向量,即令m1维ϕ=[φ1(x),φ2(x),⋯,φm1(x)]T,而向量ϕ 可被认为是被映射到高维空间之后的输入数据xφi(x)称为隐藏函数,其组成的向量ϕ所在的空间称为隐藏空间或特征空间。

        如果样本在m1维空间里的映射恰巧线性可分,那么问题便简化为一个硬间隔线性可分问题。所以说白了,传说中的核技巧就是对初始样本进行非线性变换,在另一个高维空间找到最优超平面完成对样本映射的二分类,而那个高维空间的最优超平面映射回初始样本空间就变成了一个最优超曲面。下面举个简单的例子:

       异或问题,将点(0,0)和(1,1)归于类A,点(0,1)和点(1,0)归于类B。我们可以通过这样一组变换函数:

                                            φ1(x)=exp(−∥xt1∥2)

                                            φ2(x)=exp(−∥xt2∥2)                   

这就是高斯隐藏函数,虽然只有两个隐藏函数,所以对应的高维空间也只有二维,但是已经可以实现线性可分。其中t1=(1,1),t2=(0,0);也就是将样本点x与点(1,1)和点(0,0)的距离作为函数变量。转换之后结果如下,显然已经线性可分。

 

转换前转换后
(0,0)(0.1353,1.000)
(0,1)(0.3678,0.3678)
(1,0)(0.3678,0.3678)
(1,1)(1.000,0.1353)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值