线性可分支持向量机
Motivation
如图,假设我们的训练集中有两类样本点,现在我们想让两类样本线性可分,即寻找一个划分超平面将这两类样本分离。
显然,一个划分超平面能将两个不相交凸集分开的充分必要条件是能将两个集合中距离划分超平面最近的两个点分开。从图中可以看出,满足个条件的划分超平面可以有很多个,那么哪一个划分超平面是“最优”的呢?
现在假想我们为样本集添加噪声,那么原来一些本来可用的划分超平面就变的不可用,换句话说,这些划分超平面对训练样本局部扰动的”容忍性“不足,从几何的角度来看就是,样本点距离划分超平面的最小距离不够大,而两个异类中距离划分超平面距离最近的两点到划分超平面的距离之和(我们称之为间隔)即为这个划分超平面可以容忍的噪声范围。显然,对噪声容忍性最强的划分超平面是最优的,所以我们的目标就变成了:
寻找能将样本分离的具有最大间隔的划分超平面
由上面的讨论中我们可以看出要实现这个目标要分两步走:
- 对于每一个候选的划分超平面,在样本集中找到距离划分超平面距离最小的样本点;
- 在所有的候选划分超平面中找到间隔最大的划分超平面。
线性可分支持向量机
顾名思义,就是对于一个训练样本集,可以找到一个线性划分超平面将样本集分割。
假设我们的训练样本集为 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\lbrace (x_{1}, y_{1}), (x_{2}, y_{2}), ... , (x_{m}, y_{m})\rbrace D={
(x1,y1),(x2,y2),...,(xm,ym)} , y i ∈ { + 1 , − 1 } ,\quad y_{i}\in\lbrace+1, -1\rbrace ,yi∈{
+1,−1}。并且假设此训练样本集线性可分,则我们的划分超平面为: ω T x + b = 0 \omega^T x + b = 0 ωTx+b=0其中 ω = ( ω 1 ; ω 2 ; . . . ; ω d ) \omega=(\omega_{1}; \omega_{2}; ... ;\omega_{d}) ω=(ω1;ω2;...;ωd)为方向向量, b b b为位移项,决定超平面到原点的垂直距离,显然划分超平面可悲 ω \omega ω和 b b b确定,所以我们记此划分超平面为 ( ω , b ) (\omega, b) (ω,b)。
- 上面提到的两步走战略中的第一步是寻找样本集中点到划分超平面的最小距离。所有对于样本集中的一个点 x x x,根据点到平面距离公式可以得到,任意点到划分超平面的距离为: r = ∣ ω T x + b ∣ ∣ ∣ ω ∣ ∣ r=\frac{|\omega^Tx + b|}{||\omega||} r=∣∣ω∣∣∣ωTx+b∣所以我们第一步的目标是: m i n [ ∣ ω T x i + b ∣ ∣ ∣ ω ∣ ∣ ] ∀ i = 1 , 2 , . . . , m min[\frac{|\omega^Tx_{i} + b|}{||\omega||}] \quad \forall i=1, 2, ... , m min[∣∣ω∣∣∣ωTxi+b∣]∀i=1,2,...,m能使上式最小的 x m i n x_{min} xmin即为支持向量,这些支持向量确定了划分超平面的边界,从而确定了划分超平面的间隔。由于 y i ∈ { + 1 , − 1 } y_{i} \in \lbrace+1, -1\rbrace yi∈{ +1,−1},所以如果我们设定划分超平面的下边界的值为-1,上边界的值为+1,则对于 ω T x i + b ≥ + 1 \omega^Tx_{i} + b \geq +1 ωTxi+b≥+1有 y i = + 1 y_{i} = +1 yi=+1,对于 ω T x i + b ≤ − 1 \omega^Tx_{i} + b \leq -1 ωTxi+b≤−1有 y i = − 1 y_{i} = -1 yi=−1。所以对于支持向量 x m i n x_{min} xmin来说 ∣ ω T x m i n + b ∣ ∣ ∣ ω ∣ ∣ = 1 ∣ ∣ ω ∣ ∣ \frac{|\omega^Tx_{min} + b|}{||\omega||} = \frac{1}{||\omega||} ∣∣ω∣∣∣ωTxmin+b∣=∣∣ω∣∣1对于任意样本点总有: y i ( ω T x i + b ) ≥ 1 y_{i}(\omega^Tx_{i} + b) \geq 1 yi(ωTxi+b)≥1事实上这个不等式保证了训练样本集合线性可分。
- 上面说到第二步是使划分超平面间隔最大化,那么我们就需要表示出这个间隔,即为两个异类的支持向量到划分超平面的距离之和: γ = ∣ ω T x m i n + 1 + b ∣ ∣ ∣ ω ∣ ∣ + ∣ ω T x m i n − 1 + b ∣ ∣ ∣ ω ∣ ∣ = 1 ∣ ∣ ω ∣ ∣ + 1 ∣ ∣ ω ∣ ∣ = 2 ∣ ∣ ω ∣ ∣ \gamma=\frac{|\omega^Tx_{min+1} + b|}{||\omega||} + \frac{|\omega^Tx_{min-1} + b|}{||\omega||}=\frac{1}{||\omega||} + \frac{1}{||\omega||} = \frac{2}{||\omega||} γ=