【统计学习方法】支持向量机之线性可分支持向量机

最新推荐文章于 2022-09-02 10:23:41 发布

置顶菜小白—NLP

最新推荐文章于 2022-09-02 10:23:41 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/ACM_hades/article/details/90711967

一、线性可分支持向量机

这里我们先考虑一个二类分类问题，假设给定一个特征空间上的训练数据集： $T={(x_1，y_1 ),(x_2，y_2 ),…,(x_N，y_N )}$ 其中， $x_i∈X∈R^n，y_i∈{-1,+1}$
并假设训练数据集是线性可分的.
学习目标:在特征空间中找到一个分离超平面 $(w . x + b = 0)$ ，它由法向量 $w$ 和截距 $b$ 决定，可用 $(w, b)$ 来表示.分离超平面将特征空间划分为两部分，一部分是正类，一部分是负类.法向量指向的一侧为正类，另一侧为负类.
一般地，当训练数据集线性可分时，存在无穷个分离超平面可将两类数据正确分开.
- 感知机利用误分类最小化的策略，从这无穷多个分离超平面中任选一个。
- 线性可分支持向量机利用间隔最大化求最优分离超平面，即从这无穷多个分离超平面中选择一个间隔最大的分离超平面作为最后的解，这时，解是唯一的.
线性可分支持向量机：线性可分支持向量机的离超平面为： $w^* x+b^*=0$ 相应的分类决策函数： $f(x)=sign(w^* x+b^*)$

二、函数间隔和几何间隔

一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度.
假设分离超平面为 $w . x + b = 0$ ，点 $x_i$ 到超平面的距离公式为： $\frac{|w.x_i+b|}{||w||}$ 这个距离又称为几何间隔。我们可以将其绝对值去掉，当样本点被超平面正确分类时： $\frac{y_i(w.x_i+b)}{||w||}$
那么 $w.x_1+b|$ 能够相对地表示点 $x_i$ 距离超平面的远近.并且而 $w.x_1+b$ 的符号与类标记 $y_i$ 的符号是否一致能够表示分类是否正确.所以可用量 $y_i (w.x_1+b)$ 来表示分类的正确性及确信度，这就是函数间隔.
几何间隔:
- 对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ，定义超平面关于样本点 $x_i,y_i)$ 的几何间隔为: $r_i=\frac{(y_i (w.x_i+b)}{||w||}$
- 定义超平面关于训练数据集 $T$ 的几何间隔为:超平面关于 $T$ 中所有样本点的几何间隔之最小值，即: $r=\min_{i=1,2,…N)}r_i$
函数间隔:
- 对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ，定义超平面关于样本点 $x_i,y_i)$ 的函数间隔为: $\hat{r_i} =y_i (w.x_1+b)$
- 定义超平面关于训练数据集 $T$ 的函数间隔为:超平面关于 $T$ 中所有样本点的函数间隔之最小值，即: $\hat{r}=\min_{i=1,2,…N)}\hat{r_i}$
- 函数间隔可以表示分类预测的正确性及确信度.但是有一个问题就是：只要成比例地改变 $w$ 和 $b$ ，例如将它们改为 $2 w$ 和 $2 b$ ，超平面并没有改变，但函数间隔却成为原来的2倍. $2 w . x + 2 b = 0$ 两边同时除2： $w . x + b = 0$
- 所以可以对分离超平面的法向量 $w$ 加某些约束，如规范化， $∣ ∣ w ∣ ∣ = 1$ ，这时函数间隔成为几何间隔.而对于每个分类超平面，每个点的几何间隔是确定的。
超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的几何间隔一般是实例点到超平面的带符号的距离，当样本点被超平面正确分类时就是实例点到超平面的距离.
从函数间隔和几何间隔的定义可知，函数间隔和几何间隔有下面的关系： $r_i=\frac{\hat{r_i }}{||w||}$ $r=\frac{\hat{r}}{||w||}$
如果 $∣ (∣ w ∣) ∣ = 1$ ，那么函数间隔和几何间隔相等.并且如果超平面参数w和b成比例地改变(超平面没有改变)，函数间隔也按此比例改变，而几何间隔不变.

三、间隔最大化

支持向量机学习的基本思想：求解能够正确划分训练数据集并且几何间隔最大的分离超平面. 这里的间隔最大化又称为硬间隔最大化
下面考虑如何求得一个几何间隔最大的分离超平面，具体地，可以表示为下面的约束最优化问题： $max_{w,b}⁡r$ $\qquad \frac{y_i (w.x_i+b)}{||w||}≥r \qquad i=1,2,…,N$ 最大化几何间隔最小的间隔，即最大化样本集的几何间隔。
可以转化为函数间隔： $\max_{w,b}⁡\frac{\hat{r}}{||w||}$ $\qquad y_i (w.x_i+b)≥\hat{r} \qquad i=1,2,…,N$ 事实上，假设将 $w$ 和 $b$ 按比例改变为 $λ w$ 和 $λ b$ ，这时样本集的所有样本的函数间隔都扩大 $λ$ 倍.并不影响比较大小， $\hat{r}=λ\hat{r}$ ，所有函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，也就是说，它产生一个等价的最优化问题.
注意：这里有一个需要注意的问题，无论我们是计算样本集的几何距离还是函数距离，都是在 $w$ 和 $b$ 确定的情况下进行计算的，并不是计算样本 $x_i,y_i)$ 距离用 $w$ 和 $b$ 计算样本 $x_j,y_j)$ 时使用 $2 w$ 和 $2 b$ 。
这样我们就可以通过调节 $w$ 和 $b$ 使得 $\hat{r}=1$ ，这是上面不等式的调节结果。这样优化目标变成： $\max_{w,b}⁡\frac{1}{||w||}$ $\qquad y_i (w.x_i+b)≥1 \qquad i=1,2,…,N$ 等价于： $\min_{w,b}\frac{1}{2}||w||^2$ $\qquad y_i (w.x_i+b)-1≥0 \qquad i=1,2,…,N$ 其中平方于1/2都是为了计算方便引入的。这是一个凸二次规划问题
凸优化问题:是指约束最优化问题： $min_w f(w)$ $s.t. g_i (w)≤0 ,i=1,2…,k\\ h_i (w)=0 ,i=1,2….,l$ 其中，目标函数 $f (w)$ 和约束函数 $g_i (w)$ 都是 $R^n$ 上的连续可微的凸函数，约束函数 $h_i (w)$ 是 $R^n$ 上的仿射函数.
- 仿射函数:如果 $h_i (w)=ax+b，a,x∈R^n,b∈R$ 则 $h_i (w)$ 被为仿射函数，
- 当目标函数 $f (w)$ 是二次函数且约束函数 $g_i (w)$ 是仿射函数时，上述凸最优化问题成为凸二次规划问题

线性可分支持向量机学习算法——最大间隔法：

输入：线性可分训练数据集 $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )}$ ，其中， $x_i∈X∈R^n，y_i∈{-1,+1}$
输出：最大间隔分离超平面和分类决策函数.
- 构造并求解约束最优化问题： $\min_{w,b}\frac{1}{2}||w||^2$ $\qquad y_i (w.x_i+b)-1≥0 \qquad i=1,2,…,N$ 求得最优解 $w^*,b^*$ .
- 由此得到分离超平面： $w^* x+b^*=0$ 分类决策函数 $f(x) =sign(w^* x+b^*)$
线性可分训练数据集的最大间隔分离超平面是存在且唯一的.

支持向量和间隔边界:

在线性可分情况下，训练集中与分离超平面距离最近的样本点称为支持向量.支持向量是使约束条件式等号成立的点，即: $y_i (wx_i+b)-1=0$
对 $y_i=+1$ 的正例点，支持向量所在超平面为： $H_1:w.x+b=1$
对 $y_i=-1$ 的负例点，支持向量所在超平面为： $H_2:w.x+b=-1$
如下图所示：
$H_1$ 与 $H_2$ 之间的距离称为间隔.间隔依赖于分离超平面的法向量 $w$ ，等于
$\frac{2}{||w||}$ ， $H_1$ 和 $H_2$ 称为间隔边界.
在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用.如果移动支持向量将改变所求的解；但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的.由于支持向量在确定分离超平面中起着决定性作用，所以将这种分类模型称为支持向量机.

四、学习的对偶算法

现在我们开始求解线性可分支持向量机的最优化问题： $\min_{w,b}⁡\frac{1}{2} ||w||^2$ $st.\qquad 1-y_i (w.x_i+b)≤0 \qquad i=1,2,…,N$ 将它称作原始最优化问题
求解的基本思路：应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解，这就是线性可分支持向量机的对偶算法。这样做的优点：
- 一是对偶问题往往更容易求解；
- 二是自然引入核函数，进而推广到非线性分类问题.
对拉格朗日乘子法和拉格朗日对偶性不了解的可以参考：https://blog.csdn.net/ACM_hades/article/details/90644195
https://blog.csdn.net/ACM_hades/article/details/90642698
首先构建拉格朗日函数： $L(w,b,α)=\frac{1}{2} ||w||^2+∑_{i=1}^Nα_i (1-y_i (w.x_i+b))$ $=\frac{1}{2} ||w||^2+∑_{i=1}^Nα_i -∑_{i=1}^Nα_i y_i (w.x_i+b)$ 其中， $α=(α_1,α_2,…,α_N)$ 为拉格朗日乘子向量，并且 $α_i≥0$
原始问题为： $min_{w,b}⁡\max_α⁡L(w,b,α)$
根据拉格朗日对偶性，原始问题的对偶问题为： $max_α⁡\min_{w,b}⁡L(w,b,α)$
并且原始问题满足Slater条件所以具有强对偶性，对偶问题与原始问题同解。即存在 $w^*,b^*,α^*$ ，使 $w^*, b^*$ 是原始问题的解， $α^*$ 是对偶问题的解.这意味着求解原始问题可以转换为求解对偶问题.

对偶问题求解：

先求解 $min_{w,b}⁡L(w,b,α):$
- 将拉格朗日函数 $L (w, b, α)$ 分别对 $w, b$ 求偏导数并令其等于 $0$ : $_w L(w,b,α)=w-∑_{i=1}^Nα_i y_i x_i =0$ $_b L(w,b,α)=-∑_{i=1}^Nα_i y_i =0$ 得: $w=∑_{i=1}^Nα_i y_i x_i$ $_{i=1}^Nα_i y_i =0$
- 将其代入拉格朗日函数： $\min_{w,b}⁡L(w,b,α)=\frac{1}{2} ∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j)-∑_{i=1}^Nα_i y_i ((∑_{j=1}^Nα_j y_j x_j )*x_i+b)+∑_{i=1}^Nα_i$ $=\frac{1}{2}∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j)-∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j)-b∑_{i=1}^Nα_i y_i+∑_{i=1}^Nα_i$ $=-\frac{1}{2} ∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j) +∑_{i=1}^Nα_i$ 其中 $x_i*x_j)$ 表示内积
- 记为： $D(α)=\min_{w,b}⁡L(w,b,α)=-\frac{1}{2} ∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j) +∑_{i=1}^Nα_i$
再求 $D (α)$ 对 $α$ 的极大值, 即是对偶问题： $\max_α⁡(-\frac{1}{2} ∑_{i=1}^N ∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j)+∑_{i=1}^N α_i)$ $st.\qquad α_i≥0 \qquad i=1,2,…,N$ $_{i=1}^Nα_i y_i =0$
- 将求极大转换成求极小，就得到下面与之等价的对偶最优化问题： $\min_α⁡(\frac{1}{2} ∑_{i=1}^N ∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j)-∑_{i=1}^N α_i)$ $st.\qquad α_i≥0 \qquad i=1,2,…,N$ $_{i=1}^Nα_i y_i =0$
- 假设我们现在通过某种方法求得了对偶问题的解： $α^*=(α_1^*,α_2^*,…,α_N^*)$ ，现在需要求出原始问题的解 $w^*,b^*$ ，由强对偶性可知 $w^*,b^*,α^*$ 满足KKT条件： $_w L(w^*,b^*,α^* )=w^*-∑_{i=1}^Nα_i^* y_i x_i =0$ $_b L(w^*,b^*,α^* )=-∑_{i=1}^Nα_i^* y_i =0$ $1-y_i (w^*.x_i+b^* )≤0 ,i=1,2,…,N$ $α_i^* (1-y_i (w^*.x_i+b^* ))=0 ,i=1,2,…,N$ $α_i^*≥0 ,i=1,2,…,N$
- 由第一个式子可以得到 $w^*$ 的 $α_i^*$ 表达式： $w^*=∑_{i=1}^Nα_i^* y_i x_i$
- 由于 $w^*$ 为分类超平面的法向量，则一定不为 $0$ ，故根据上面表达式可知 $α_i^*$ 不全为0，假设 $α_j^*≠0$ ，根据KKT倒数第二个式子可以得到： $1-y_j (w^*.x_j+b^* )=0$ $1=y_j (∑_{i=1}^Nα_i^* y_i x_i *x_j+b^* )$ 由于 $y_j y_j=1$ ，所以两变同时乘一个 $y_j$ : $y_j=∑_{i=1}^Nα_i^* y_i x_i*x_j+b^*$ $b^*=y_j-∑_{i=1}^Nα_i^* y_i x_i *x_j$
- 由 $w^*$ 和 $b^*$ 的表达式可知， $α_i^*=0$ 的样本 $x_i,y_i)$ 对 $w^*$ 和 $b^*$ 没有作用，它们是由， $α_j^*!=0$ 的样本 $x_j,y_j)$ 构成的， $x_j,y_j)$ 这些样本就是支持向量。根据KKT倒数第二个式子可以得到支持向量都满足： $y_j (w^*.x_j+b^* )=1$ $w^*.x_j+b^* =y_j$ 即 $x_j$ 一定在间隔边界上.这里的支持向量的定义与前面给出的支持向量的定义是一致的.
- 分离超平面可以写成： $_{i=1}^Nα_i^* y_i x_i *x+b^*=∑_{i=1}^Nα_i^* y_i (x_i *x)+b^*$
- 分类决策函数可以写成: $f(x)=sign(∑_{i=1}^Nα_i^* y_i (x_i *x)+b^*)$
- 上式称为线性可分支持向量机的对偶形式，观测可以发现，分类决策函数只依赖于输入 $x$ 和训练样本输入的内积.
上面所说的求解对偶问题的某种方式：一般为SMO算法可以参考链接：https://blog.csdn.net/ACM_hades/article/details/90701030