超平面表达式:
函数间隔 : 对于在超平面上的点,
w
x
+
b
=
0
wx+b=0
wx+b=0 恒成立。而超平面之外的点,可以认为距离越远,
w
x
+
b
wx+b
wx+b 的绝对值越大,同时分类成功的概率也越高,表达式为:
几何间隔 : 顾名思义,几何间隔就是两条平行线之间的距离,表达式为:
考虑SVM的目标,是要使所有样本点中几何间隔的最小值尽可能大:
即最优化问题为:
将约束条件的左右两边同时乘以 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣,可以得到表达式: y i ( w ⋅ x i + b ) ≥ γ ⋅ ∣ ∣ w ∣ ∣ y_i(w·x_i+b)≥γ·||w|| yi(w⋅xi+b)≥γ⋅∣∣w∣∣
可以发现此时左边是函数间隔的表达式,回到函数间隔的本身意义,它表示空间中任一点到分类超平面 w ⋅ x i + b = 0 w·x_i+b=0 w⋅xi+b=0 的相对距离,如果对超平面表达式两边乘以一个系数,相当于对该平面作一个线性空间的映射,例如将 2 x + 2 = 0 2x+2=0 2x+2=0 的两端同时乘以 0.5 0.5 0.5,得到 x + 1 = 0 x+1=0 x+1=0,表示新的基底向量下的平面空间。
相应的,空间中任一点到该平面的相对距离也会成比例增加或者减小。因此,对于 y i ( w ⋅ x i + b ) ≥ γ ⋅ ∣ ∣ w ∣ ∣ y_i(w·x_i+b)≥γ·||w|| yi(w⋅xi+b)≥γ⋅∣∣w∣∣,相当于对于此超平面,空间中任一点到它的相对距离是 γ ⋅ ∣ ∣ w ∣ ∣ γ·||w|| γ⋅∣∣w∣∣。 假设我们站在上帝视角已经得到了一个超平面 w ⋅ x i + b = 0 w·x_i+b=0 w⋅xi+b=0,不妨对此超平面做一个映射,也就是令两端同时除以系数 γ ⋅ ∣ ∣ w ∣ ∣ γ·||w|| γ⋅∣∣w∣∣,映射到新的线性空间,那么点与平面的相对距离也是同时映射过去的,换句话说,映射操作不对点到平面的相对距离发生变化,因此可以在一开始就令 γ ⋅ ∣ ∣ w ∣ ∣ = 1 γ·||w||=1 γ⋅∣∣w∣∣=1
又由于最大化 γ γ γ 等价于最大化 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} ∣∣w∣∣1,等价于最小化 1 2 ∣ ∣ x ∣ ∣ 2 \frac{1}{2}||x||^2 21∣∣x∣∣2, 1 2 \frac{1}{2} 21是为了方便后面求导
这时,SVM模型求约束下的最大分割超平面又可以表示成:
(根据以上的推导,这是映射到新线性空间后的表达式)
此时,经过我们一系列映射、转换的方式,原问题变成了含有不等式约束的凸二次规划问题。
可视化验证:
以下是某个模型对于两个测试集的svm分类结果,精度分别为1和0.9980:
当讲常数1改为100后,得到的分类结果如下:
精度分别为1和0.9980,与常数为100时一致,但是空间被拉伸,两条虚线之间的相对距离很大
当讲常数1改为0.01后,得到的分类结果如下
同时精度仍然为1和0.9980,常数为1时保持不变,但可以发现空间被压缩,两条虚线之间的距离非常小以至于看不见