分类器
分类器是一种计算机程序。
他的设计目标是在通过学习后,可自动将数据分到已知类别。
平面线性分类器
一个简单的分类问题,如图有一些圆圈和一些正方形,如何找一条最优的直线将他们分开?
我们可以找到很多种方法画出这条直线,但怎样的直线才是最优的呢?
距离样本太近的直线不是最优的,因为这样的直线对噪声敏感度高,泛化性较差。 因此我们的目标是找到一条直线,离最近的点距离最远。
怎么寻找距离最远的直线?枚举所有直线,然后计算其样本最小距离?这样显然不是一个好办法,这将产生大量的计算开销。
我们利用另一种方法,对直线的正负偏移量1,这样就产生了一个区域(下图的Maximum margin覆盖的区域),区域边界上的点到直线的距离是固定的,现在的问题是最近的点是否刚好在边界上或者在边界外。
还记得点到线的公式么?
对于直线Ax+By+C=0,点(x0, y0)到直线的距离:
distance = |Ax0+By0+C| / (A2 + B2)1/2
那么区域边缘到直线的距离:
distance = (|Ax+By+C| + 1)/ (A2 + B2)1/2 = 1/ (A2 + B2)1/2。
并需要满足对于所有样本类别yi满足:yi (Ax+By+C) > = 1,也就是所有样本都不在该区域以内。
于是我们可以找到适当的A、B、C,从而得到:
Maximum margin = 2/ (A2 + B2)1/2。
超平面推广
同理,我们将这一定理推广到任意维度。其超平面表达式为:
一维是线、二维是面、三维是体……四维呢?五维呢?好吧统称超平面吧……
其中
叫做 权重向量 ,
叫做 偏置向量。
用这种表达式来表达线Ax+By+C = 0的话,可以这么表示:
f(x) = (C, 0) + (A, B)T (x, y);
其中(C, 0) 是偏置向量
,(A, B)是权重向量
。
由于最优超平面可以有很多种表达方式,我们定义:
β0+ βTx = 0,
为最优超平面表达式。于是我们可以得到他的Maximum margin区域边界表达式应该为:
我们称在这边界上的点为:支持向量(Supper Vector)。
因为点到超平面距离公式为:
在边界上,即支持向量到超平面距离:
所以Maximum margin为两倍距离,即:
将M求倒数1/M 则可将求最大转换成求最小。于是有: