线性支持向量机与软间隔最大化
一、线性可分SVM的问题
【1】
现实中数据往往是线性不可分的。
即使可分,也会因异常点(蓝色的)影响模型的泛化效果。
不考虑蓝色异常点,分类超平面为橙色。加入蓝色点。分离超平面为黑色。这样会严重影响模型的预测效果。
二、线性SVM与软间隔最大化
线性不可分意味着某些样本点不能满足函数间隔大于等于1。
软间隔是相对于硬间隔而言的,对此我们放松了函数间隔的要求,之前是一定要大于等于1,现在只需要加上一个大于等于0的松弛变量能大于1就行。
对每一个样本
(xi,yi)
(
x
i
,
y
i
)
引入一个松弛变量
ξi≥0
ξ
i
≥
0
。约束条件变为
松弛变量的引入是需要付出代价的,也就是说我们要惩罚那些误分类的点。
线性SVM(包括了线性可分和线性不可分)的原始问题如下
目标函数尽量小,即间隔尽量大 ,同时误分类点的个数尽量小, C>0 C > 0 是调和二者的系数。
三、对偶算法
根据上篇对偶算法的一般步骤有
公式繁琐,有机会再重敲ヽ(`Д´)ノ︵ ┻━┻ ┻━┻
由此我们得到了线性SVM的对偶问题
与线性可分SVM的对偶问题对比,只多了 αi≤C α i ≤ C 。
4. 线性支持向量机的KKT条件
解的偏导=0
解满足不等式约束,
拉格朗日乘子大于0
对偶互补:拉格朗日乘子大于0时,解的不等式约束的等号成立
由第一个偏导得到
参数b是根据对偶互补条件得到的。
若存在 0<α∗j<C 0 < α j ∗ < C , 由C−αj−μj=0 由 C − α j − μ j = 0 知 μj≠0 μ j ≠ 0 。
互补条件2得, ξj=0 ξ j = 0
带到互补条件1, yj(w∗⋅xj+b∗)−1=0 y j ( w ∗ ⋅ x j + b ∗ ) − 1 = 0
w∗,b∗ w ∗ , b ∗ 与线性可分SVM对比
【2】p101 线性可分SVM, w,b w , b 是唯一的
【2】p109 线性SVM,可以证明 w w 的解是唯一的,但的解是不唯一的, b b 的解存在于一个区间。
在计算的时候,可以取所有符合条件的样本的平均值。
四、支持向量
由公式(7)(8)知,
w∗,b∗
w
∗
,
b
∗
只依赖于训练数据集中
α∗>0
α
∗
>
0
的样本点(称这样的点为支持向量),而其他样本点对
w∗,b∗
w
∗
,
b
∗
没有影响。这和线性可分SVM定义的支持向量是一致的。
线性可分SVM中的支持向量在间隔边界上
线性SVM的支持向量可以在
间隔边界上,间隔边界与超平面之间,分离超平面误分一侧
1.若
0<α∗i<C
0
<
α
i
∗
<
C
,上面已经推了一遍了,
ξi=0
ξ
i
=
0
,松弛变量为0,支持向量在间隔边界上
2.若
α∗i=C
α
i
∗
=
C
-
0<ξ∗i<1
0
<
ξ
i
∗
<
1
,分类正确,样本在间隔边界与分类超平面之间
-
ξ∗i=1
ξ
i
∗
=
1
,样本在分离超平面上
-
ξ∗i>1
ξ
i
∗
>
1
,样本在分离超平面误分一侧
五、合页损失函数(hinge loss)
线性SVM的另一种解释
最小化合页损失函数
其中 [z]+ [ z ] + 为取正值函数
目标函数表示第一项当样本点被正确分类且函数间隔(确信度) yi(w⋅xi+b) y i ( w ⋅ x i + b ) 大于1时,损失是0。
否则,损失是 1−yi(w⋅xi+b) 1 − y i ( w ⋅ x i + b ) ,第二项表示正则化项。
感知机的损失函数是 [−yi(w⋅xi+b)]+ [ − y i ( w ⋅ x i + b ) ] + ,当样本点被正确分类时,损失是0。
否则,损失是 −yi(w⋅xi+b) − y i ( w ⋅ x i + b ) 。
合页损失函数不仅要求分类正确,而且确信度足够高时损失才是0。
0-1 损失函数,是可以用于二分类问题的损失函数,分类正确,损失是0;否则,损失是1。
【1】
横坐标表示函数间隔,纵坐标表示损失。
其他的损失函数???先挖个坑
下面证明最小化合页损失函数(公式9)和软间隔最大化(线性SVM的原始问题公式1-3)是等价的
令
取正值函数知, ξi≥0 ξ i ≥ 0 ,公式3成立;
当 1−yi(w⋅xi+b)>0 1 − y i ( w ⋅ x i + b ) > 0 , yi(w⋅xi+b)=1−ξi y i ( w ⋅ x i + b ) = 1 − ξ i
当 1−yi(w⋅xi+b)≤0 1 − y i ( w ⋅ x i + b ) ≤ 0 , ξi=0 ξ i = 0 , 1−yi(w⋅xi+b)≤ξi 1 − y i ( w ⋅ x i + b ) ≤ ξ i
因此公式2成立;
公式9改写为
取 λ=12C λ = 1 2 C
公式1成立。
参考文献
【1】http://www.cnblogs.com/pinard/p/6100722.html
【2】统计学习方法