支持向量机(SVM)详解(二)
本文承接上一篇《支持向量机(SVM)详解(一)》,继续对支持向量机进行介绍,这篇文章分为两大部分:软间隔支持向量机和核函数的引入。
一、“软间隔”(Soft-margin)支持向量机
“软间隔”支持向量机是一种不满足式(2)的,不可以将训练样本“完美”划分的分类器。
目标函数
在现实任务中很多情况下都不满足式(2)这种情况,为了避免使用核函数带来的过拟合问题,软间隔支持向量机允许训练集中的一部分样本不满足“完美”划分条件,但是在最大化间隔时,应使不满足约束的样本点尽可能少。因此在式(4)的优化目标函数中加入损失函数 l o s t ( x i , y i ) lost\left(\mathbf{x}_i,y_i\right) lost(xi,yi),来表示上述这些不满足约束的样本点的影响,即
![](https://i-blog.csdnimg.cn/blog_migrate/36512f6eaf447c6fe764961151796bd7.png)
当损失函数 l o s t ( x i , y i ) lost\left(\mathbf{x}_i,y_i\right) lost(xi,yi)采用0/1损失函数 f ( n ) = { 1 , z < 0 0 , otherwise f(n)= \begin{cases} 1, &z<0\\ 0, & \text{otherwise} \end{cases} f(n)={
1,0,z<0otherwise时(其中 z = y i ( ω T x i + b ) − 1 z=y_i\left(\omega^{T}\mathbf{x}_i+b\right)-1 z=yi(ωTxi+b)−1),若参数 C C C无穷大,那么就会迫使所有样本点满足式(2)中的约束条件,而式(10)等价于式(4),反之,如果所有样本点均满足式(2)(此时损失函数不小于零),那么参数 被迫为零,式(10)同样等价与式(4);若参数 为有限值,那么式(10)允许一部分样本点不满足式(2)。
但是,由于0/1损失函数不连续、数学性质不好,且由于其非凸而不满足凸优化条件使得强对偶性不成立【6】,因此不易于直接求解。于是出现了许多用来替代0/1损失函数的“替代损失”函数(Surrogate Loss Function),这些函数往往具有良好的数学性质,他们通常是凸的连续函数而且是0/1损失函数的上界,如下三种替代损失函数
![](https://i-blog.csdnimg.cn/blog_migrate/a061ad0579b4399cde53788d2e9cd4c8.png)
这几种损失函数的关系由下图所示,其中红色线为0/1损失函数
![](https://i-blog.csdnimg.cn/blog_migrate/2acfc9d36dba16f6f4b91e968cf56d97.png)
由于损失函数不小于零的性质,在这里引入松弛变量(Slack Variable) ξ i ⩾ 0 \xi_i\geqslant{0} ξi⩾0,优化目标函数中的损失函数 l o s t ( x i , y i ) lost\left(\mathbf{x}_i,y_i\right) lost(xi,yi)可以被替换为 ξ i ⩾ 0 \xi_i\geqslant{0} ξi⩾0,这时,优化目标可以写为
![](https://i-blog.csdnimg.cn/blog_migrate/70d8fc21a218095b39dc8cbcaa0195ce.png)
这就是软间隔支持向量机的优化目标,其中松弛变量 ξ i ⩾ 0 \xi_i\geqslant{0} ξi⩾0由来描述样本点不满足式(2)约束条件的程度,且满足【5】中二次规划问题的条件,可以采用现成的二次规划包来进行求解。
需要注意的是,式(11)中第一项可以看做是“结构风险”(Structural Risk),即模型过拟合的风险,另一项可以看做是“经验风险”(Empirical Risk),即模型与训练集的契合程度,参数 是正则化系数,因此,式(11)可以称为“正则化问题”(Regularization Problem)。
目标函数的对偶问题
与硬间隔支持向量机中的讨论类似,在软间隔支持向量机中,优化目标的拉格朗日乘子函数可以表示为
![](https://i-blog.csdnimg.cn/blog_migrate/1f778132fd5e189cb1b028720de74a01.png)
其中