1 SVM
1.1 什么是支持向量
1.2 SVM 最优化问题是什么?
首先我们想要最优化的是各类样本点到超平面的距离最远(其实也就是找到最大间隔超平面)。
- 样本点: x x x
- 超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0
- 样本点到超平面的距离:先看二维的情况,就是点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0) 到直线
A
x
+
B
y
+
C
=
0
Ax+By + C = 0
Ax+By+C=0 的距离
∣ A x 0 + B y 0 + C ∣ A 2 + B 2 \frac{|Ax_0+By_0 + C|}{\sqrt{A^2+B^2}} A2+B2∣Ax0+By0+C∣
拓展到高维,就是点到超平面的距离:
∣ w T x + b ∣ ∣ ∣ w ∣ ∣ \frac{|w^Tx+b|}{||w||} ∣∣w∣∣∣wTx+b∣
其中, ∣ ∣ w ∣ ∣ = w 1 2 + w 2 2 + . . . + w d 2 ||w|| = \sqrt{w_1^2+w_2^2+...+w_d^2} ∣∣w∣∣=w12+w22+...+wd2
有了距离的定义后,我们可以看如下的图:
发现,除了支持向量(离超平面最近的几个点)以外,其它的样本点到超平面的距离都大于
d
d
d,所以我们可以对所有样本点进行如下表示:
其中,
y
i
=
1
y_i =1
yi=1 表示红色的样本点,
y
i
=
−
1
y_i=-1
yi=−1 表示蓝色的样本点!分母
w
T
x
i
+
b
w^Tx_i + b
wTxi+b不带绝对值,在超平面下方的点代进去确实小于0。
我们来简化一下:
此处,
看能不能回答如下几个问题:
- margin 的求法,1的由来(放缩)
- min max L 中 max 由来(min max L 等价于 带约束的最小值——目标函数)
- min max L = max min L (强对偶)的由来(强对偶的等价条件是1.凸优化,2.满足 KKT条件)
- min L 先求(w,b)最小值,之后 max 求 a 的最大值(二次规划方法),可以用 smo 方法,也可以用下面小例子1的方法(max 转化为 min优化问题)
小例子:
2 SVM+soft margin
3 SVM + kernel function
x
T
y
x^Ty
xTy,涉及到内积,注意,先对x,y平方(核函数映射),然后再算内积,等价于先算内积再平方(核函数映射)
我们要把数据映射到高维,然后分开(目标函数中出现内积),等价于在低维先内积,再映射到高维
例如,高斯核函数,把每个样本变都映射成一个高斯分布