本文是需要一定基础才可以看懂的,建议先看看参考博客,一些疑惑会在文中直接提出,大家有额外的疑惑可以直接评论,有问题请直接提出,相互交流。
SVM-统计学习基础
一开始讲解了最小间距超平面:所有样本到平面的距离最小
。而距离度量有了函数间隔和几何间隔,函数间隔与法向量
w
w
w和
b
b
b有关,
w
w
w变为
2
w
2w
2w则函数间距变大了,于是提出了几何距离,就是对
w
w
w处理,除以
∣
∣
w
∣
∣
||w||
∣∣w∣∣,除以向量长度,从而让几何距离不受影响。
但是支持向量机提出了最大间隔分离超平面,这似乎与上面的分析相反,其实这个最大间隔是个什么概念呢?通过公式来分析一下,正常我们假设超平面公式是:
w
T
x
+
b
=
0
/
/
超
平
面
w^{T}x+b=0 // 超平面
wTx+b=0//超平面
max
w
,
b
γ
s
.
t
.
y
i
(
w
∣
∣
w
∣
∣
x
i
+
b
∣
∣
w
∣
∣
)
≥
γ
\max \limits_{w,b} \quad \gamma \\ s.t. \quad y_i(\frac{w}{||w||}x_i+\frac{b}{||w||}) \ge \gamma
w,bmaxγs.t.yi(∣∣w∣∣wxi+∣∣w∣∣b)≥γ
也就是说对于所有的样本到超平面距离 都大于
γ
\gamma
γ,那这个
γ
\gamma
γ如何求解,文中约定了概念支持向量:正负样本最近的两个点,这两个点之间的距离就是
γ
\gamma
γ,那么问题来了,这中间的超平面有无数个,如何确定这个超平面呢?于是我们可以约束这个超平面到两个最近的点的距离是一样的。
上图中两个红色菱形点与一个蓝色实心圆点就是支持向量,通过这个求解目标,以及约束条件来求解这个超平面。书中有完整的公式装换以及证明这个超平面的唯一性。
这里要讲解一个样本点到直线的距离,
正常我们可能难以理解公式里
y
y
y去哪里了,拿二维空间做例子,正常我们说一个线性方程都是
y
=
a
x
+
b
y=ax+b
y=ax+b,其中a和b都是常量,这个线性方程中有两个变量
x
x
x和
y
y
y,转换公式就是
y
−
a
x
−
b
=
0
y-ax-b=0
y−ax−b=0,从线性矩阵的角度来思考问题就是
y
y
y是
x
1
x_1
x1,
x
x
x是
x
2
x_2
x2,用一个
w
T
w^T
wT来表示这两者的系数,用
b
b
b代替
−
b
-b
−b,所以公式就变为了:
w
T
x
+
b
=
0
w^{T}x+b=0
wTx+b=0
于是任意一个样本点到超平面的距离是:
r
=
∣
w
T
x
+
b
∣
∣
∣
w
∣
∣
r = \frac{|w^{T}x+b|}{||w||}
r=∣∣w∣∣∣wTx+b∣
也就是说约束条件中要求
>
γ
>\gamma
>γ,其实就是大于支持向量到超平面的距离。
通过一个例子来看看:
这里例子中有
w
1
,
w
2
w_1,w_2
w1,w2,这是因为坐标点是二维的,相当于样本特征是两个,分类的结果是这两个特征的结果标签,所以这里的
w
w
w就是一个二维的,说明在具体的应用里需要根据特征来确定
w
w
w的维度。
问题转换:拉格朗日对偶
其实原始问题是这样的:
max
w
,
b
γ
s
.
t
.
y
i
(
w
∣
∣
w
∣
∣
x
i
+
b
∣
∣
w
∣
∣
)
≥
γ
\max \limits_{w,b} \quad \gamma \\ s.t. \quad y_i(\frac{w}{||w||}x_i+\frac{b}{||w||}) \ge \gamma
w,bmaxγs.t.yi(∣∣w∣∣wxi+∣∣w∣∣b)≥γ
利用几何距离与函数距离的关系
γ
=
γ
^
∣
∣
w
∣
∣
\gamma = \frac{\hat{ \gamma}}{||w||}
γ=∣∣w∣∣γ^将公式改为:
max
w
,
b
γ
^
∣
∣
w
∣
∣
s
.
t
.
y
i
(
w
x
i
+
b
)
≥
γ
^
\max \limits_{w,b} \quad \frac{\hat{ \gamma}}{||w||} \\ s.t. \quad y_i(wx_i+b) \ge \hat{\gamma}
w,bmax∣∣w∣∣γ^s.t.yi(wxi+b)≥γ^
函数间隔是会随着
w
与
b
w与b
w与b的变化而变化,同时将
w
与
b
w与b
w与b变成
λ
w
与
λ
b
\lambda w与\lambda b
λw与λb,则函数间隔也会变成
λ
γ
\lambda \gamma
λγ,所以书中直接将
γ
=
1
\gamma=1
γ=1来转换问题。同样的问题又改为:
max
w
,
b
1
∣
∣
w
∣
∣
s
.
t
.
y
i
(
w
x
i
+
b
)
≥
1
\max \limits_{w,b} \quad \frac{1}{||w||} \\ s.t. \quad y_i(wx_i+b) \ge1
w,bmax∣∣w∣∣1s.t.yi(wxi+b)≥1
求解最大值改为另一个问题,求解最小值:
min
1
2
∣
∣
w
∣
∣
2
s
.
t
.
y
i
(
w
x
i
+
b
)
≥
1
\min \quad \frac{1}{2} ||w||^2 \\ s.t. \quad y_i(wx_i+b) \ge1
min21∣∣w∣∣2s.t.yi(wxi+b)≥1
这就是一个对偶问题的例子,也是书中支持向量机模型的一个目标函数转换的过程,大家可以看看了解一下这个思路。其实书中利用拉格朗日乘子来求解条件极值,这一块在高等数学中多元函数的极值及求解方法
中有提到。
为了加深记忆,手写了后面的推导过程:
关于拉格朗日对偶的证明:
1、拉格朗日乘子法
m
i
n
L
(
w
,
b
,
a
)
=
1
2
∣
∣
w
∣
∣
2
−
∑
i
=
1
m
a
i
[
y
i
(
w
t
x
i
+
b
)
−
1
]
s
.
t
.
y
i
(
w
x
i
+
b
)
≥
1
a
i
≥
0
min \quad L(w,b,a) = \frac{1}{2} ||w||^2 -\sum_{i=1}^{m}a_i[y^i(w^tx^i+b)-1] \\ s.t. \quad y_i(wx_i+b) \ge 1\\ a^i\ge0
minL(w,b,a)=21∣∣w∣∣2−i=1∑mai[yi(wtxi+b)−1]s.t.yi(wxi+b)≥1ai≥0
一般我们会最大化
m
a
x
a
max_{a}
maxa,得到
m
i
n
w
,
b
m
a
x
a
L
(
w
,
b
,
a
)
=
1
2
∣
∣
w
∣
∣
2
−
∑
i
=
1
m
a
i
[
y
i
(
w
t
x
i
+
b
)
−
1
]
s
.
t
.
y
i
(
w
x
i
+
b
)
≥
1
a
i
≥
0
min_{w,b} \quad max_{a} \quad L(w,b,a) = \frac{1}{2} ||w||^2 -\sum_{i=1}^{m}a_i[y^i(w^tx^i+b)-1] \\ s.t. \quad y_i(wx_i+b) \ge 1\\ a^i\ge0
minw,bmaxaL(w,b,a)=21∣∣w∣∣2−i=1∑mai[yi(wtxi+b)−1]s.t.yi(wxi+b)≥1ai≥0
其实满足约束条件下可以证明:
m
i
n
w
,
b
m
a
x
a
L
(
w
,
b
,
a
)
=
m
i
n
w
,
b
L
(
w
,
b
,
a
)
min_{w,b} \quad max_{a} \quad L(w,b,a) = min_{w,b} \quad L(w,b,a)
minw,bmaxaL(w,b,a)=minw,bL(w,b,a)
证明可以参考上面的图写,也可以参考博客机器学习数学:拉格朗日对偶问题,问题来了,明明一样为什么这么写?这么写的形式可以帮助我们来从对偶的角度来转换问题,对偶形式是将
m
i
n
min
min和
m
a
x
max
max 对换:
m
a
x
a
m
i
n
w
,
b
L
(
w
,
b
,
a
)
max_{a} \quad min_{w,b} \quad L(w,b,a)
maxaminw,bL(w,b,a)
证明:假设满足条件下有极值点:
w
∗
w^*
w∗,则
g
(
b
,
a
)
=
min
L
(
w
∗
,
b
,
a
)
≤
1
2
∣
∣
w
∗
∣
∣
2
≤
min
1
2
∣
∣
w
∣
∣
2
g(b,a)=\min \quad L(w^*,b,a) \le \quad \frac{1}{2} ||w^*||^2 \le \min \quad \frac{1}{2} ||w||^2
g(b,a)=minL(w∗,b,a)≤21∣∣w∗∣∣2≤min21∣∣w∣∣2
说明
g
(
b
,
a
)
g(b,a)
g(b,a)是
min
1
2
∣
∣
w
∣
∣
2
\min \quad \frac{1}{2} ||w||^2
min21∣∣w∣∣2的一个下限,那么我们可以最大化这个下限,于是就可以:
max
a
min
w
,
b
L
(
w
,
b
,
a
)
\max_{a}\min_{w,b}L(w,b,a)
amaxw,bminL(w,b,a)
软间隔
硬间隔是方便用来分隔线性可分的数据,如果样本中的数据是线性不可分的呢?也就是如图所示:
有一部分红色点在绿色点那边,绿色点也有一部分在红色点那边,所以就不满足上述的约束条件:
s
.
t
.
y
i
(
x
i
+
b
)
>
1
s.t. \quad y_i(x_i+b) >1
s.t.yi(xi+b)>1,软间隔的最基本含义同硬间隔比较区别在于允许某些样本点不满足原约束,从直观上来说,也就是“包容”了那些不满足原约束的点。软间隔对约束条件进行改造,迫使某些不满足约束条件的点作为损失函数,如图所示:
这里要区别非线性情况,非线性的意思就是一个圆圈,圆圈里是一个分类结果,圆圈外是一个分类结果。这就是非线性的情况。
其中当样本点不满足约束条件时,损失是有的,但是满足条件的样本都会被置为0,这是因为加入了转换函数,使得求解min的条件会专注在不符合条件的样本节点上。
但截图中的损失函数非凸、非连续,数学性质不好,不易直接求解,我们用其他一些函数来代替它,叫做替代损失函数(surrogate loss)。后面采取了松弛变量的方式,来使得某些样本可以不满足约束条件。
这里思考一个问题:既然是线性不可分,难道最后求出来的支持向量就不是直线?某种意义上的直线?
其实还是直线,不满足条件的节点也被错误的分配了,只是尽可能的求解最大间隔,
核函数
引入核函数可以解决非线性的情况:将样本从原始空间映射到一个更高为的特征空间,使得样本在这个特征空间内线性可分。图片所示:
粉红色平面就是超平面,椭圆形空间曲面就是映射到高维空间后的样本分布情况,为了将样本转换空间或者映射到高维空间,我们可以引用一个映射函数,将样本点映射后再得到超平面。这个技巧不仅用在SVM中,也可以用到其他统计任务。
但映射函数并不是最重要的,核函数是重要的,看到《统计学习方法》中提到的概念:
其中映射函数与核函数之间有函数关系,一般我们显示的定义核函数,而不显示的定义映射函数,一方面是因为计算核函数比映射函数简单,我们对一个二维空间做映射,选择的新空间是原始空间的所有一阶和二阶的组合,得到了五个维度;如果原始空间是三维,那么我们会得到 19 维的新空间,这个数目是呈爆炸性增长的,这给 的计算带来了非常大的困难,而且如果遇到无穷维的情况,就根本无从计算了。所以就需要 Kernel 出马了。这样,一个确定的核函数,都不能确定特征空间和映射函数,同样确定了一个特征空间,其映射函数也可能是不一样的。举个例子:
上述例子很好说明了核函数和映射函数之间的关系。这就是核技巧,将原本需要确定映射函数的问题转换为了另一个问题,从而减少了计算量,也达到了线性可分的目的,
原始方法: 样本X ----> 特征空间Z ---- > 内积求解超平面
核函数: 样本X ---- > 核函数 求解超平面
但是我一直很疑惑,为什么这个核函数就正好是映射函数的内积?他为什么就可以生效?核函数的参数是哪里来的?就是样本中的两个样本点 ?
查看了一些博客之后,慢慢理解,得到以下的内容。
这也说明核函数是作用在两个样本点上的,以下来自如某一篇博客里:
最理想的情况下,我们希望知道数据的具体形状和分布,从而得到一个刚好可以将数据映射成线性可分的 ϕ(⋅) ,然后通过这个 ϕ(⋅) 得出对应的 κ(⋅,⋅) 进行内积计算。然而,第二步通常是非常困难甚至完全没法做的。不过,由于第一步也是几乎无法做到,因为对于任意的数据分析其形状找到合适的映射本身就不是什么容易的事情,所以,人们通常都是“胡乱”选择映射的,所以,根本没有必要精确地找出对应于映射的那个核函数,而只需要“胡乱”选择一个核函数即可——我们知道它对应了某个映射,虽然我们不知道这个映射具体是什么。由于我们的计算只需要核函数即可,所以我们也并不关心也没有必要求出所对应的映射的具体形式。
常用的核函数及对比:
-
Linear Kernel 线性核
k ( x i , x j ) = x i T x j k(x_i,x_j)=x_i^{T}x_j k(xi,xj)=xiTxj
线性核函数是最简单的核函数,主要用于线性可分,它在原始空间中寻找最优线性分类器,具有参数少速度快的优势。 如果我们将线性核函数应用在KPCA中,我们会发现,推导之后和原始PCA算法一模一样,这只是线性核函数偶尔会出现等价的形式罢了。 -
Polynomial Kernel 多项式核
k ( x i , y j ) = ( x i T x j ) d k(x_i,y_j)=(x_i^{T}x_j)^d k(xi,yj)=(xiTxj)d
也有复杂的形式:
k ( x i , x j ) = ( a x i T x j + b ) d k(x_i,x_j)=(ax_i^{T}x_j+b)^d k(xi,xj)=(axiTxj+b)d
其中 d ≥ 1 d\ge1 d≥1为多项式次数,参数就变多了,多项式核实一种非标准核函数,它非常适合于正交归一化后的数据,多项式核函数属于全局核函数,可以实现低维的输入空间映射到高维的特征空间。其中参数d越大,映射的维度越高,和矩阵的元素值越大。故易出现过拟合现象。 -
径向基函数 高斯核函数 Radial Basis Function(RBF)
k ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 σ 2 ) k(x_i,x_j)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2}) k(xi,xj)=exp(−2σ2∣∣xi−xj∣∣2)
σ > 0 \sigma>0 σ>0是高斯核带宽,这是一种经典的鲁棒径向基核,即高斯核函数,鲁棒径向基核对于数据中的噪音有着较好的抗干扰能力,其参数决定了函数作用范围,超过了这个范围,数据的作用就“基本消失”。高斯核函数是这一族核函数的优秀代表,也是必须尝试的核函数。对于大样本和小样本都具有比较好的性能,因此在多数情况下不知道使用什么核函数,优先选择径向基核函数。
-
Laplacian Kernel 拉普拉斯核
k ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ σ ) k(x_i,x_j)=exp(-\frac{||x_i-x_j||}{\sigma}) k(xi,xj)=exp(−σ∣∣xi−xj∣∣) -
Sigmoid Kernel Sigmoid核
k ( x i , x j ) = t a n h ( α x T x j + c ) k(x_i,x_j)=tanh(\alpha x^Tx_j+c) k(xi,xj)=tanh(αxTxj+c)
采用Sigmoid核函数,支持向量机实现的就是一种多层感知器神经网络。
其实还有很多核函数,在参考博客里大家都可以看到这些核函数,对于核函数如何选择的问题,吴恩达教授是这么说的:
- 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM
- 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel
- 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况
参考博客
重点推荐:SVM系列文章
【直观详解】支持向量机SVM
支持向量机扩展
SVM-非线性可分情况-可视化展示-视频
机器学习----SVM(2)从原始问题到对偶问题的转换
总结一下遇到的各种核函数~
攀登传统机器学习的珠峰-SVM (上)
SVM smo算法
统计方法学习之:svm超平面存在唯一性证明过程