4.求解超平面
上篇仅介绍了SVM的基本概念,本篇着重讲解SVM中的最佳线性分类器(最大边界超平面)是如何求得的。
4.1几何间隔
上一小节给出二维问题下最佳线性分割的标准,就是分割线到两类边界点的距离最“宽”,那么这个“宽度”怎么量化和求解呢?
我们知道,点 ( x 0 , y 0 ) (x_{0} ,y_{0}) (x0,y0)到直线 A x + B y + c = 0 Ax+By+c=0 Ax+By+c=0的距离(中学的知识点),可以表示为:
D = ∣ A x 0 + B y 0 + c ∣ A 2 + B 2 D=\frac{|Ax_{0}+By_{0}+c|} {\sqrt{A^{2}+B^{2}}} D=A2+B2∣Ax0+By0+c∣
在我们的二维问题中,第i个点的坐标为 X i = ( x i 1 , x i 2 ) T X_{i}=(x_{i1},x_{i2})^{T} Xi=(xi1,xi2)T,直线为 w 1 x 1 + w 2 x 2 + b = W T X + b = 0 w_{1}x_{1}+w_{2}x_{2}+b=W^{T}X+b=0 w1x1+w2x2+b=WTX+b=0(为了打公式方便,后面我们不区分向量和其转置,省略T标志,统一写成 W X + b = 0 WX+b=0 WX+b=0),将上式替换, X i X_{i} Xi到分割直线的距离为:
D = ∣ W X i + b ∣ w 1 2 + w 2 2 = ∣ W X i + b ∣ ∣ ∣ W ∣ ∣ D=\frac{|WX_{i}+b|} {\sqrt{w_{1}^{2}+w_{2}^{2}}}=\frac{|WX_{i}+b|} {||W||} D=w12+w22∣WXi+b∣=∣∣W∣∣∣WXi+b∣
有的人也许对分母||W||感到陌生,这里多做点解释。
||W||是向量W的2-范数( L 2 L_{2} L2范数),一般我们说向量长度,指的是向量的2-范数。例如这里的 W = ( w 1 , w 2 ) W=(w_{1},w_{2}) W=(w1,w2),它的2-范数就是 ∣ ∣ W ∣ ∣ 2 = w 1 2 + w 2 2 ||W||_{2}=\sqrt{w_{1}^{2}+w_{2}^{2}} ∣∣W∣∣2=w12+w22 (通常会省略下标2,一般说||W||就是指 ∣ ∣ W ∣ ∣ 2 ||W||_{2} ∣∣W∣∣2),而它的p-范数( L p L_{p} Lp范数)就是 ∣ ∣ W ∣ ∣ p = w 1 p + w 2 p p ||W||_{p}=\sqrt[p]{w_{1}^{p}+w_{2}^{p}} ∣∣W∣∣p=pw1p+w2p 。
这里给出向量范数的一般形式:对于n维向量 W = ( w 1 , w 2 , . . . , w n ) W=(w_{1},w_{2},...,w_{n}) W=(w