考虑如何用决策边界划分空间
找一条直线,这条直线会让分隔正负例的街道最宽,那么,如何制定一条决策规则来使用这个决策边界。
点积的作用就是让向量
u
往
则是正例。这就是我们的决策规则。
问题在于,我们不知道要用什么常数,也不知道用哪个
w
,只知道
加入我们想把正例和负例分开的更明显一点。我们规定:
即,当函数的值大于等于1的时候才算正例,小于等于-1的时候才算负例。加入我们说正例有正的程度,负例有负的程度,为了统一评价他们的这种程度(也就是让“程度”有可比性)我们给出一个新的函数
σ(xi)=yig(xi)
这样就出现了:
即:
这就是我们的约束条件,这组公式保证了所有的样本点都不会出现在-1~1之间,也就避免了出现不可分的情况。当
yi(w∗xi+b)−1=0
时,对边缘处的所有样本正好成立。
接下来,我们还需要表达出两个边缘之间的距离,即街道的宽度。
我们通过求两个向量的差来求。
图
如果有一个单位法向量,垂直于街道的中线,做这个单位法向量于这个差向量的点积,聚会得到街道的宽度。
求得后是一个标量。
由前面的公式得知:
当处于正例边缘时:
yi=+1,=>w∗x+=1−b
当处于负例边缘时:
yi=−1,=>w∗x+=1+b
把这两个带入
width
公式得到:
我们要求最宽的街道,即要
width
最大化。
要
width
最大化。,也就是最小化
||w||
,也相当于最小化
12||w||2
回顾一下我们都做了什么。
①确定了决策规则,判断处于哪一边。
②给出约束条件,让决策规则的值,对于边缘处的正例为+1,对于边缘处的负例为-1.
③最大化街道宽度,即最小化
12||w||2
要求带约束条件的函数的极值,我们就需要用到拉格朗日乘数。这样我们得到
我们让
L
求导等于0求得极值。
w
是关于
决策向量
w
是样本的现象和,带入
这个式子告诉我们,极值只依赖于样本对之间的点积。