支持向量机（SVM）

最新推荐文章于 2024-06-26 22:33:25 发布

leisurehippo

最新推荐文章于 2024-06-26 22:33:25 发布

阅读量534

点赞数 3

分类专栏：算法文章标签： svm

本文链接：https://blog.csdn.net/leisurehippo/article/details/78059117

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

支持向量机（SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机模型；支持向量机还包括核技巧，使它成为实质上的非线性分类器。

线性可分支持向量机

定义超平面为 $w·x+b=0$ , 它由法向量 $w$ 和截距 $b$ 决定，用 $(w,b)$ 表示。通过间隔最大化求得的分离超平面为

w * \cdot x + b * = 0

$w^*·x + b^* = 0$ 分类决策函数为

f (x) = s i g n (w * \cdot x + b *)

$f(x) = sign(w^*·x + b^*)$ 成为线性可分支持向量机。

SVM的主要思路就是 “间隔最大化”。它关心的是找到一条最优的分离边界，使得类别之间的间隔最大，或者说以充分大的确信度对训练数据进行分类。不仅将正负点分开。还要将最难分的（离超平面近）点也要有足够大的确信度将他们分开。因此，SVM会主要关心那些难分（离超平面近）的实例点。

下面用数学的方式来表示“间隔”，然后最大化它。
函数间隔： 在超平面确定的情况下， $|w·x+b|$ 能够相对地表示点x距离超平面的远近。而 $w·x+b$ 的符号与y的符号是否一致能够表示分类是否正确。所以定义样本点 $(x_i,y_i)$ 对超平面 $(w,b)$ 的函数间隔为

γ^i = y i (w \cdot x i + b)

$\hat{\gamma}_i = y_i(w·x_i+b)$ 定义超平面

(w,b) $(w,b)$ 关于训练数据集T的函数间隔为T中所有样本点的函数间隔的最小值

γ^= min i = 1, . . ., N γ^i

$\hat{\gamma} = \min_{i=1,...,N}\hat{\gamma}_i$
但是如果成比例的改变

w $w$ 或者

b $b$ ,函数间隔也会改变。因此引入几何间隔
几何间隔：
定义样本点

(xi,yi) $(x_i,y_i)$ 对超平面

(w,b) $(w,b)$ 的几何间隔为

γ i = y i (w | | w | | \cdot x i + b | | w | |)

$\gamma_i = y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})$ 定义超平面

(w,b) $(w,b)$ 关于训练数据集T的几何间隔为T中所有样本点的几何间隔的最小值

γ = min i = 1, . . ., N γ i

$\gamma = \min_{i=1,...,N}\gamma_i$
易知，函数间隔和几何间隔的关系

γ=γ^||w|| $\gamma = \frac{\hat{\gamma}}{||w||}$ 。如果成比例的改变

w $w$ 或者

b $b$ ,几何间隔不会改变

则SVM的目的“间隔最大化”用数学形式表达即以下约束最优化问题：

max w, b γ

$\max_{w,b} \quad\gamma$

s . t . y i (w | | w | | \cdot x i + b | | w | |) ⩾ γ, i = 1, 2, . . ., N

$s.t.\quad y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})\geqslant \gamma,\quad i=1,2,...,N$
即我们希望最大化超平面关于数据集的几何间隔，约束条件表明超平面关于每个样本点的几何间隔至少是

γ $\gamma$
这是线性可分支持向量机的最终目标，下面就一步一步地来解决它。
1. 首先，利用几何间隔和函数间隔的关系重写最优化问题为

max w, b γ ^ | | w | |

$\max_{w,b}\quad \frac{\hat{\gamma}}{||w||}$

s . t . y i (w \cdot x i + b) ⩾ γ^, i = 1, 2, . . ., N

$s.t.\quad y_i(w·x_i+b)\geqslant \hat\gamma,\quad i=1,2,...,N$ 函数间隔

γ $\gamma$ 的取值并不影响最优化问题的解。因为将

w $w$ 和

b $b$ 成比例缩放为

λw $\lambda w$ 和

λb $\lambda b$ 后，函数间隔变成了

λγ^ $\lambda \hat\gamma$ ，并不影响最优化目标和约束。这样可以取

γ^=1 $\hat\gamma = 1$ ，这样最优化问题变成了

min w, b 1 2 | | w | | 2

$\min_{w,b}\quad\frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 ⩾ 0, i = 1, 2, . . ., N

$s.t.\quad y_i(w·x_i+b)-1\geqslant0,\quad i=1,2,...,N$ 为什么把最大化

1||w|| $\frac{1}{||w||}$ 改写成最小化

12||w||2 $\frac{1}{2}||w||^2$ ，我的理解是在后续的求解过程中以这种形式的求解会更加有利。（在对偶问题的求导中有利）
在线性可分问题中，使约束的等号成立的点称为 支持向量。对于

yi=+1 $y_i=+1$ 的正例点，支持向量在超平面

H1:w⋅x+b=1 $H_1:w·x+b=1$ 上，对于

yi=−1 $y_i=-1$ 的负例点，支持向量在超平面

H2:w⋅x+b=−1 $H_2:w·x+b=-1$ 上。两个超平面之间的间隔为

2||w|| $\frac{2}{||w||}$ 。正是这些支持向量对分离超平面起作用，而其他点对于解是没有影响的。因此这种模型叫做支持向量机。
2. 这是一个带有约束的最优化问题。使用拉格朗日对偶性进行求解。首先构建拉格朗日函数，引入拉格朗日乘子

αi⩾0,i=1,2,...,N $\alpha_i \geqslant 0,i=1,2,...,N$ ,定义拉格朗日函数

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

$L(w,b,\alpha) = \frac{1}{2}||w||^2 - \sum_{i=1}^N \alpha_i y_i(w·x_i+b)+\sum_{i=1}^N \alpha_i$ 根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题

max α min w, b L (w, b, α)

$\max_{\alpha}\min_{w,b}L(w,b,\alpha)$ 所以首先求

L(w,b,α) $L(w,b,\alpha)$ 对

w,b $w,b$ 的极小。分别对

w,b $w,b$ 求偏导并令其为0

\nabla w L (w, b, α) = w - \sum i = 1 N α i y i x i = 0

$\nabla_wL(w,b,\alpha) = w-\sum_{i=1}^N \alpha_iy_ix_i = 0$

\nabla b L (w, b, α) = \sum i = 1 N α i y i = 0

$\nabla_bL(w,b,\alpha) = \sum_{i=1}^N\alpha_iy_i = 0$ 得到

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^N\alpha_iy_ix_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$ 从这里可以看出，第一步中为什么把最大化

1||w|| $\frac{1}{||w||}$ 改写成最小化

12||w||2 $\frac{1}{2}||w||^2$ ，这样求导后可以直接得到

w $w$ ，代回原始式子可以直接消去。将

w $w$ 代回，并利用第二个式子，即得

L (w, b, α) = 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i y i ((\sum j = 1 N α j y j x j) \cdot x i + b) + \sum i = 1 N α i

$L(w,b,\alpha) = \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j) - \sum_{i=1}^N\alpha_iy_i((\sum_{j=1}^N\alpha_jy_jx_j)·x_i+b)+\sum_{i=1}^N\alpha_i$ 化简得

min w, b L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

$\min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j) + \sum_{i=1}^N\alpha_i$ 于是，原始问题转换为

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i

$\min_{\alpha}\quad\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j) - \sum_{i=1}^N\alpha_i$

s . t . \sum i = 1 N α i y i = 0 α i ⩾ 0, i = 1, 2, . . ., N

$s.t.\quad\sum_{i=1}^N\alpha_iy_i = 0 \\\alpha_i\geqslant0,\quad i=1,2,...,N$ 至此，我们把最初的问题转换成了现在的形式。下一步的求解使用序列最小最优化(SMO)算法。在最后一部分给出介绍。假设我们已经求得解

α∗=(α∗1,α∗2,...,α∗l)T $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_l^*)^T$ ,我们可以利用下式求得原始问题的解

w∗,b∗ $w^*,b^*$

w * = \sum i = 1 N α * i y i x i

$w^* = \sum_{i=1}^N\alpha_i^*y_ix_i$ 选择

α∗ $\alpha^*$ 的一个正分量，计算

α∗j>0 $\alpha_j^*>0$

b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)

$b^* = y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i·x_j)$ 证明时利用KKT条件的对偶互补条件可得。
考虑此时的支持向量，为

α∗i>0 $\alpha_i^*>0$ 的点。（

α∗i=0 $\alpha_i^*=0$ 的点对求解并没有实质性作用）

线性不可分支持向量机

对于线性不可分问题，原始问题的约束条件（函数间隔大于等于1）就会不满足了。这时可以对每个样本点引入一个松弛变量 $\xi_i\geqslant0$ , 这样约束条件就变成了 $y_i(w·x+b)\geqslant1-\xi_i$ ，对于每个松弛变量支付一个代价 $\xi_i$ ，目标函数变为 $\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$ ，C为惩罚参数。它调和最大化间隔和最小化误分类点二者。则对于线性不可分问题，学习问题变为

min w, b, ξ 1 2 | | w | | 2 + C \sum i = 1 N ξ i

$\min_{w,b,\xi}\quad \frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$

s . t . y i (w \cdot x + b) ⩾ 1 - ξ i, i = 1, 2, . . ., N

$s.t.\quad y_i(w·x+b)\geqslant1-\xi_i,\quad i=1,2,...,N$

ξ i ⩾ 0, i = 1, 2, . . ., N

$\xi_i\geqslant0,\quad i=1,2,...,N$ 可以证明

w $w$ 的解是唯一的，b的解不唯一，存在一个区间。
求解时还是先写出拉格朗日函数，求其对偶问题。拉格朗日函数为

L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + C \sum i = 1 N ξ i - \sum i = 1 N α i (y i (w \cdot x i + b) - 1 + ξ i) - \sum i = 1 N μ i ξ i

$L(w,b,\xi,\alpha,\mu) = \frac{1}{2}||w||^2 + C\sum_{i=1}^N\xi_i - \sum_{i=1}^N\alpha_i(y_i(w·x_i+b)-1+\xi_i) - \sum_{i=1}^N\mu_i\xi_i$ 然后对

w,b,ξ $w,b,\xi$ 求导使其为0，即

\nabla w L (w, b, ξ, α, μ) = w - \sum i = 1 N α i y i x i = 0

$\nabla_wL(w,b,\xi,\alpha,\mu) = w-\sum_{i=1}^N \alpha_iy_ix_i = 0$

\nabla b L (w, b, ξ, α, μ) = - \sum i = 1 N α i y i = 0

$\nabla_bL(w,b,\xi,\alpha,\mu) = -\sum_{i=1}^N\alpha_iy_i = 0$

\nabla ξ i L (w, b, ξ, α, μ) = C - α i - μ i = 0

$\nabla_{\xi_i}L(w,b,\xi,\alpha,\mu) = C-\alpha_i-\mu_i = 0$ 带回原式。这时学习对偶算法为

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i

$\min_{\alpha} \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^N\alpha_i$

s . t . \sum i = 1 N α i y i = 0

$s.t.\quad \sum_{i=1}^N\alpha_iy_i=0$

0 ⩽ α i ⩽ C, i = 1, 2, . . ., N

$0\leqslant \alpha_i\leqslant C,\quad i=1,2,...,N$ 很巧的是尽管引入了松弛变量，在最后的对偶问题中并没有出现，只是在约束中出现了惩罚系数C，目标函数和线性可分问题是一样的。
下一步的求解仍是使用SMO算法，最终结果和线性可分问题几乎一样，在计算

b∗ $b^*$ 时，选择

0<α∗j<C $0< \alpha_j^*<C$ 由于原始问题对b的解不唯一，实际问题中可以取所有符合条件的样本点计算，然后取平均。
软间隔的支持向量是

α∗i>0 $\alpha_i^*>0$ 的点。但是这些点不一定在间隔边界上。若

α∗i<C $\alpha_i^*<C$ 则

ξi=0 $\xi_i=0$ ，支持向量在间隔边界上；若

α∗i=C，0<ξi<1 $\alpha_i^*=C，0<\xi_i<1$ ，分类正确，支持向量在间隔边界和分离超平面之间；若

α∗i=C，ξi=1 $\alpha_i^*=C，\xi_i=1$ ，支持向量在分离超平面上；若

α∗i=C，ξi>1 $\alpha_i^*=C，\xi_i>1$ ，支持向量在分离超平面误分一侧。

SVM另一种解释方式

通过软间隔最大化，可以引出SVM的另一种解释方式，正则化的合页损失函数的最小化问题。最小化以下目标

\sum i = 1 N [1 - y i (w \cdot x i + b)] + + λ | | w | | 2

$\sum_{i=1}^N [1-y_i(w·x_i+b)]_++\lambda||w||^2$ 式中第一项是经验损失，函数

L(y(w⋅x+b))=[1−y(w⋅x+b)]+ $L(y(w·x+b))=[1-y(w·x+b)]_+$ 称为 合页损失函数(hinge loss function)。

[z]+ $[z]_+$ 表示当z小于0时，取值为0，大于零时取值为z。在cs231n里，这个也写作

max(0,1−yi(w⋅xi+b)) $max(0,1-y_i(w·x_i+b))$
这就是说当样本点被正确分类且函数间隔

yi(w⋅xi+b) $y_i(w·x_i+b)$ 大于1时，损失是0。否则是

1−yi(w⋅xi+b) $1-y_i(w·x_i+b)$
以下给出简单证明，两种解释方式等价。
令

[1−yi(w⋅xi+b)]+=ξi $[1-y_i(w·x_i+b)]_+=\xi_i$ ，易知线性不可分支持向量机的目标约束成立。最优化目标写成

min w, b \sum i = 1 N ξ i + λ | | w | | 2

$\min_{w,b} \quad \sum_{i=1}^N \xi_i+\lambda||w||^2$ ，若取

λ=12C $\lambda=\frac{1}{2C}$ 。则两种解释方式等价。
在吴恩达的机器学习视频里，是从逻辑回归LR中引出SVM的。他们的区别在于LR使用的是对数损失函数，而SVM使用的是合页损失函数。不同损失函数如下。
loss

两个损失函数的目的都是增加对分类影响较大的数据点的权重。SVM是只考虑支持向量，而LR通过非线性映射，大大减小了离分类平面较远点的权重。
相比来说，SVM的独特点在于它的核技巧。但是，不代表核技巧是SVM专有的。Kernel Logistic Regression(KLR)也很常见，FM/FFM也算是KLR。
关于正则项，LR需要在损失函数中添加，但是SVM损失函数就自带L2正则项！很神奇
关于何时使用哪种分类算法，下面贴出吴恩达的解释
LR vs SVM

关于核技巧，下一篇文章将进行说明。

leisurehippo

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
支持向量机（SVM）

支持向量机（SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机模型；支持向量机还包括核技巧，使它成为实质上的非线性分类器。线性可分支持向量机定义超平面为 w⋅x+b=0 w·x+b=0 , 它由法向量 ww 和截距 bb 决定，用(w,b)(w,b) 表示。通过间隔最大化求得的分离超平面为 w∗⋅x+b∗=0w^*·x + b^* = 0
复制链接

扫一扫

专栏目录