机器学习:核方法和soft svm

                 浅谈SVM核方法



       在用svm进行二分类的时候,如果数据在当前维上不是线性可分的,那么就需要把原始的样本数据投影到高维的空间上。高维可分之后在大会到现在的维度,但是这里有一个问题就是:这样做的运算量太大了。如下所示:
     
            在上面的图片中,红色区域就是我们最终的计算结果。Z代表的是投影之后的数据,我们知道Z.T*Z计算的是两个样本之间的相似度,前面的那一坨可以认为是系数。我们最后想要的是最小化样本之间的距离。也就是说你可以认为SVM是找出支撑点之后,然后挨个的计算每一个样本点和支撑点的距离。但是但是哈,你不认为这里的计算量也太大了吧。当原始数据点是二维平面上的点的时候,进行投影映射之后得到的是4维度,这个时候计算的复杂度是4,那么原始样本点是100维呢?你试试。。。
           
           这里我们想想,SVM在把数据映射到高维之后计算和仅仅是数据的内积,有没有一种方法,可以可以不去直接计算向量的乘机,还能得到相同的结果。如图所示:


          下面就看看什么是核方法:如下所示


       第一行表示的是原始的样本(x1,x2.....xn)在进行高维映射之后的样本点。第二行表示高维样本数据向量的乘积,观察一下最终的额结果是什么。就是结果的样子。最终的结果是原始样本的另一种表示方法。因为原始样本都是一次,那么高维的当然也就最高次数也就是二。这个时候我们就可以来定义核方法啦。也就是第三行所示。这叫做多项式核。最终的结果可以写成这样。
    
      在继续看一下核方法更加抽象的定义
    
        第一行中每一个原始数据的前面的系数都是1,退到符号右面是所对应的核函数。第二行我们加上系数根号2,推到符号右面所对应的就是2。那么抽象点:我们定义在最后一行。这里的Q代表的是次幂大小。伽马就是惩罚因子,为了更加清楚的说明伽马是干什么的,来看看这张图片:

      


        上面的三幅图片设置了不同的伽马系数。观察得到假如是1000,这里就发生了过拟合。想想物理意义当两个点的距离有一点的不相似,表现在数值上就是表示为两个向量的乘机,数值越大表示两个向量距离越远,这个时候惩罚因子1000如此之大,就会在高维空间认为你们两个根本就不是一家人,硬生生的分开这两向量。 
          
         看看最常用的高斯核


     高斯核的厉害之处就是仅仅用一个参数就可以叨叨和多项式核相同的结果。并且直接可以到无穷维度的映射。映射的维度越高,那也就可达到更加理想的结果。利用高斯核,最终的径向基函数表示如下

    
  效果如下,很明显最后的那付图,严重的过拟合了。

       

      到这里你会想,不对哈,映射的高维空间是什么样子呢?呵呵,管他呢,最终能达到想要的结果不就可以了。对吧。根据某一个理论,当计算得到的向量乘积是非负正定矩阵,就一定存在一个高维空间使得可以计算得到最终的结果,至于最终高维空间是什么,咱不理会。。。


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值