svm做分类问题
假设空间线性可分
目标:找到一个超平面wx+b=0 ,使得超平面能够(1)、将空间中的点分隔开来(2)、空间中所有的点离超平面尽可能的远。
找这样一个超平面 wx+b=0 就是找到超平面的参数w和b,w是超平面的法向量,b是超平面的截距。
由于空间线性可分,所以第一个条件能够满足,接下来关键是如何满足第二个条件,要找到这样的超平面使得所有点到超平面尽可能的远,我们不需要计算所有点到超平面的距离,而只需要计算离超平面最近的几个点,只要这个超平面离最近的几个点距离足够远就等价于所有点离超平面足够远,因为其他的点到超平面距离都大于这几个点到超平面的距离。
点到超平面的距离有两种形式。函数距离和几何距离:
函数距离:
ri=w∗xi+b
当w和b成比例改变时,超平面没变,函数距离成比例改变了,所以函数距离不能参与计算,除以w二阶范式就是几何距离,几何距离可以参与运算,同时为让距离结果包含正负,保证点在超平面正确的一边,几何距离公式:
ri=yi(w||w||xi+b||w||)
这样我们的目标就可以写成 求这几个点到超平面距离极大,同时其他点到超平面距离大于这几个点到超平面的距离。
令函数距离为1,那么
max1||w||s.t.yi(w∗xi+b)>=1,i=1,2,3…,n
等价于
min12||w||2s.t.−yi(w∗xi+b)+1<=0,i=1,2,3…,n
根据拉格朗日乘子法,引入参数lambda得
L(w,b,λ)=12||w||2+∑inλi[−yi(w∗xi+b)+1]
要求
λ>=0
又因为
−yi(w∗xi+b)+1<=0
,所以
12||w||2等价于maxL(w,b,λ)
同时原始问题要求
min12||w||2
于是问题变成
minw,bmaxλL(w,b,λ)