为了简便,我们从二分类问题开始。
损失函数
为了将绿色方块的点和红色圆圈的点分开,我们需要找到超平面(在二维空间中是线,三维是平面)。在上图中,直觉告诉我们, B1 B 1 的线更加好,因为它对训练样本局部扰动的“容忍”性最好。
我们可以用以下的线性方程组描述 B1 B 1 :
wTx+b=0 w T x + b = 0
其中 w w 就是该超平面的法向量,关于这点,我们可以任取在该超平面上的两个点 x1,x2 x 1 , x 2 ,减一下得到 wT(x1−x2)=0 w T ( x 1 − x 2 ) = 0 ,那么对于 x1,x2 x 1 , x 2 所决定的直线, w w 都与它垂直,所以它就是法向量。
那么任意点到超平面的距离也就可以写成:
关于这点,我们可以这么想,任取 B1 B 1 上任意一点 x' x' (过渡的中间变量),那么对于任意一点 x x 到超平面的距离为 x−x′ x − x ′ 在法向量 w w 上的投影长度:
r=|wT(x−x')|||w||=|wTx+b|||w|| r = | w T ( x − x' ) | | | w | | = | w T x + b | | | w | |
那么对于一个分类器 y=wTx+b y = w T x + b ,对一个样本 xi x i 我们可以令:
{
wTx+b≥+1,yi=+1wTx+b≤−1,yi=−1 { w T x + b ≥ + 1 , y i = + 1 w T x + b ≤ − 1 , y i = − 1
我们可以通过成倍的改变 w,b w , b 来改变不等式右边的值,这里固定为1便于后面计算。
那几个让等号成立的点被称为支持向量,也就是图中的 b11 b 11 和