在样本空间中,划分超平面的方程描述如下:
样本空间的点x到这个划分超平面距离为(x’为x在超平面上的投影) :
很明显,不同的超平面方向和位移项对分类鲁棒性不同,一般而言其间距(margin)越宽泛化能力也更好。
对于正确分类的样本,总有:
且存在缩放系数 w=ζw w = ζ w 使下式成立:
如图一中正好处于边界上使得等号成立的样本点被称为 支持向量(SV: Support Vecto)。
易得灰色间隔的宽度为
2⋅1||w||
2
⋅
1
|
|
w
|
|
, 优化的问题是改变w,b的值使得正确分类的同时间距最大:
上式等价于 :
虽然这是一个凸优化(二次导数>=0)问题,但是涉及多个变量求解较慢,引入拉格朗日乘子:
注意到上式中 1−yi(wTxi+b)<=0 1 − y i ( w T x i + b ) <= 0 ,若添加约束条件 ai>=0 a i >= 0 则后半部分始终<=0,即:
可以看到拉格朗日乘子法就是: g(x)=原函数f(x)+∑ai(ai>=0)∗约束hi(x) g ( x ) = 原 函 数 f ( x ) + ∑ a i ( a i >= 0 ) ∗ 约 束 h i ( x )
也就是说求 minw,b12⋅||w|| min w , b 1 2 ⋅ | | w | | 相当于求 minw,b(maxaL(w,b,a)) min w , b ( max a L ( w , b , a ) )
利用对偶问题,易证明下面的(3)式始终成立,那么即时(3)式的右边取最大值,不等式也依然成立即(4)式成立。
对偶问题呢?因为在约束面上当连续可导时,当取等最大或最小值时导数一定为0。而且利用偏导都为0得到的式子带入乘子式可以消去一部分变量,使得计算简单化。
例如令L(w,b,a)求偏导得到:
带入可得 minw,bL(w,b,a)=∑ai−1/2∑|aiyixi|2 min w , b L ( w , b , a ) = ∑ a i − 1 / 2 ∑ | a i y i x i | 2 。发现只有一个变量a。也就是说 如果利用 minw,bL(w,b,a) min w , b L ( w , b , a ) 求偏导为0可能消掉2个变量,而利用 maxaL(w,b,a) max a L ( w , b , a ) 只能消掉一个变量
只剩下一个变量a那么求下式也就比较简单了:
对偶的理解: 几何含义如下,
maxL
m
a
x
L
就是把其和w绑在一块(等于情况)求最大值,再把w往左移(
min(maxL)
m
i
n
(
m
a
x
L
)
),而max L (min w)则是先左移了w再把L从左往w靠。计算的角度来说则是偏导为0带入消元法。
可以参考快速排序,选定基准点之后,不管怎么从左边靠近基准,也总是小于右边往基准遍历的数,只有当两者与边界(基准)时等号成立。