机器学习——SVM支持向量机

最新推荐文章于 2024-07-19 00:03:18 发布

_大太阳_

最新推荐文章于 2024-07-19 00:03:18 发布

阅读量505

点赞数

分类专栏：机器学习

原文链接：https://zhuanlan.zhihu.com/p/77750026

版权

机器学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

重新学习一下机器学习十大经典算法，该文章参考https://zhuanlan.zhihu.com/p/77750026进行梳理

支持向量
1.1 线性可分
在二维空间上，两类点被一条直线完全分开叫做线性可分。

严格的数学定义：
$D_1$ 和 $D_2$ 是 $n$ 维欧式空间中的两个点集。如果存在 $n$ 维向量 $w$ 和实数 $b$ ，使得所有属于 $D_i$ 的点 $x_i$ 都有 $wx_i+b<0$ ，则我们称 $D_0$ 和 $D_1$ 线性可分。
1.2 最大间隔超平面
从二维空间扩展到多维空间时，将 $D_0$ 和 $D_1$ 分开的 $wx_i+b=0$ 就变成了超平面。
a) 两类样本分别分割在改超平面的两侧
b) 两侧距离超平面最近的样本点到超平面的距离被最大化了
1.3 支持向量
样本中距离超平面最近的点被称为支持向量。

1.4 SVM最优化问题
SVM想要的就是找到各类样本点到超平面的距离最远，也就是找到最大的间隔超平面 $wx_i+b=0$ 。
二维空间点到直线 $A x + B y + C = 0$ 的距离公式是： $\frac{|Ax+By+C|}{\sqrt{A^2+B^2}}$
扩展到 $n$ 维空间后，点 $x = (x_1, x_2...... x_n)$ 到直线 $w^Tx+b=0$ 的距离为 $d=\frac{|w^Tx+b|}{||w||}$ ，其中 $\sqrt{w_1^2 + w_2^2......+ w_n^2}$ 。
如下图所示，支持向量到超平面的距离为 $d$ ，其他点到超平面的距离大于 $d$ 。

于是，我们可以得到一个公式：
$f(x)=\left\{ \begin{aligned} \frac{w^Tx+b}{||w||}\ge d, && y=1\\ \frac{w^Tx+b}{||w||}\le d , && y=-1\\ \end{aligned} \right.$
稍作转化可以得到
$f(x)=\left\{ \begin{aligned} \frac{w^Tx+b}{||w||d}\ge 1, && y=1\\ \frac{w^Tx+b}{||w||d}\le -1 , && y=-1\\ \end{aligned} \right.$
$∣ ∣ w ∣ ∣ d$ 是正数，为了便于计算令其为1（对其推导无影响），故：
$f(x)=\left\{ \begin{aligned} {w^Tx+b}\ge 1, && y=1\\ {w^Tx+b}\le -1 , && y=-1\\ \end{aligned} \right.$
将两个方程合并：
$y(w^Tx+b)\ge1$
至此，我们就得到最大间隔超平面的上下两个超平面

由以上公式可得： $d=\frac{|w^Tx+b|}{||w||}=\frac{y(w^Tx+b)}{||w||}$
最大化这个距离 $\frac{y(w^Tx+b)}{||w||}$ 即 $max\frac2{||w||}$ 即 $min\frac{||w||}2$
即 $\begin{aligned} min\frac{||w||^2}2&&s.t.&& y_i(w^Tx_i+b)\ge1 \end{aligned}$
对偶问题
2.1 拉格朗日乘数法
2.2.1 等式约束化问题
$\begin{aligned} minf(x_1, x_2……x_n)&&s.t.&& h_k(x_1, x_2……x_n)=0，k=1,2……l \end{aligned}$ 令 $\begin{aligned} L(x,λ)=f(x)+Σ^l_{k=1}λ_kh_k(x) \end{aligned}$ 函数L称为拉格朗日函数，λ为拉格朗日乘子，对x于λ分别求偏导，计算可能的极值点。
2.2.2 不等式约束化问题
引入松弛变量，松弛变量也是优化变量。
$\begin{aligned} minf(x)=\frac{||w||^2}2&&s.t.&& g_i(w)=1-y_i(w^Tx_i+b)\le0 \end{aligned}$ 引入松弛变量 $a^2_i$ 得到 $h_i(w, a_i)=g_i(w)+a^2_i=0$ 。
由此，我们将不等式约束转换成等式约束，并得到拉格朗日函数： $\begin{aligned} L(w,λ,a)=f(x)+Σ^n_{i=1}λ_ih_i(x)\\ =f(w)+Σ^n_{i=1}λ_i[g_i(w)+a^2_i]&&λ_i\ge0 \end{aligned}$ 分别对 $w, λ, a$ 求偏导，其中 $Σ^n_{i=1}λ_ia^2_i\ge0$ ，问题转化为 $\begin{aligned} L(w,λ)=f(x)+Σ^n_{i=1}λ_ig_i(w) \end{aligned}$ 故我们的最优化问题转化为 $min_wmax_λL(w,λ)$ 。
考虑两种情况： $max_λL(w,λ)=\left\{ \begin{aligned} \infty&&g_i(w)\ge0\\ \frac{||w||^2}2&&g_i(w)\le0 \end{aligned} \right.$ 所以， $min(\infty,\frac{||w||^2}2)=\frac{||w||^2}2$ ，所以转化后的式子和原来是一样的。
2.2 强对偶性
对偶问题是指 $min_wmax_λL(w,λ)$ 变成了 $max_λmin_wL(w,λ)$
强对偶是指上述两式子相等。
SVM优化
1）构造拉格朗日函数
2）利用强对偶性转化对 $w$ 和 $b$ 求偏导
3）将求导结果带回原函数，得到 $\begin{aligned} max_λ[Σ^n_{j=1}λ_i-\frac12Σ^n_{i=1}Σ^n_{j=1}λ_iλ_jy_iy_j(x_i.x_j)]&&s.t.&&Σ^n_{i=1}λ_iy_i=0&&λ_i\ge0 \end{aligned}$
二次规划问题，问题规模正比于训练样本数，常用SMO(序列最小优化算法)求解。其核心思想非常简单：每次只优化一个参数，其他参数先固定住，仅求当前这个优化参数的极值。由于 $Σ^n_{i=1}λ_iy_i=0$ ，每次必须优化两个参数，固定其他参数
4）多次迭代至收敛，求解出最优λ
5）求解 $w$ 和 $b$ ，得到最大分割超平面公式
软间隔
4.1 解决问题
在实际应用中，完全线性可分的样本是很少的，如果遇到了不能够完全线性可分的样本，我们应该怎么办？比如下面这个：
于是我们就有了软间隔，相比于硬间隔的苛刻条件，我们允许个别样本点出现在间隔带里面，比如：
我们允许部分样本点不满足约束条件： $1-y_i(w^Tx_i+b)\le0$ 为了度量这个间隔软到何种程度，我们为每个样本引入一个松弛变量 $\zeta_i$ ，令 $\zeta_i\ge0$ ，且 $1-y_i(w^Tx_i+b)-\zeta_i\le0$ ，如下图所示：
求解步骤与上述相似
这边要注意一个问题，在间隔内的那部分样本点也是支持向量。
核函数
5.1 线性不可分
我们刚刚讨论的硬间隔和软间隔都是在说样本的完全线性可分或者大部分样本点的线性可分。但我们可能会碰到的一种情况是样本点不是线性可分的，比如：
这种情况的解决方法就是：将二维线性不可分样本映射到高维空间中，让样本点在高维空间线性可分，比如：

对于在有限维度向量空间中线性不可分的样本，我们将其映射到更高维度的向量空间里，再通过间隔最大化的方式，学习得到支持向量机，就是非线性 SVM。
我们用 x 表示原来的样本点，用 $φ (x)$ 表示 x 映射到特征新的特征空间后到新向量。那么分割超平面可以表示为： $f (x) = w φ (x) + b$ 。
5.2 核函数的作用
我们不禁有个疑问：只是做个内积运算，为什么要有核函数的呢？
这是因为低维空间映射到高维空间后维度可能会很大，如果将全部样本的点乘全部计算好，这样的计算量太大了。
但如果我们有这样的一核函数 $k (x, y) = (φ (x), φ (y))$ ， $x$ 与 $y$ 在特征空间的内积等于它们在原始样本空间中通过函数 $k (x, y)$ 计算的结果，我们就不需要计算高维甚至无穷维空间的内积了。
5.3 常见核函数
我们常用核函数有：
线性核函数 $k(x_i,x_j)=x_i^Tx_j$
多项式核函数 $k(x_i,x_j)=(x_i^Tx_j)^d$
高斯核函数 $k(x_i,x_j)=exp(-\frac{||x_i-x_j||}{2\delta^2})$
这三个常用的核函数中只有高斯核函数是需要调参的。
优缺点
6.1 优点
1）有严格的数学理论支持，可解释性强，不依靠统计方法，从而简化了通常的分类和回归问题；
2）能找出对任务至关重要的关键样本（即：支持向量）；
3）采用核技巧之后，可以处理非线性分类/回归任务；
4）最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”。
6.2 缺点
1）训练时间长。当采用 SMO 算法时，由于每次都需要挑选一对参数，因此时间复杂度为 $O(N^2)$ ，其中 N 为训练样本的数量；
2)当采用核技巧时，如果需要存储核矩阵，则空间复杂度为 $O(N^2)$ ；
3)模型预测时，预测时间与支持向量的个数成正比。当支持向量的数量较大时，预测计算复杂度较高。
因此支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。
适用场景
SVM在很多数据集上都有优秀的表现。
相对来说，SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。
和随机森林一样，这也是一个拿到数据就可以先尝试一下的算法。