支持向量机

最新推荐文章于 2021-12-26 22:39:58 发布

崔中江

最新推荐文章于 2021-12-26 22:39:58 发布

阅读量920

点赞数 1

分类专栏：统计学习算法

本文链接：https://blog.csdn.net/Fluentwater/article/details/51934760

版权

统计学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使他有别于感知机；支持向量机还包括核技巧，这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化问题。

支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机，线性支持向量机，及非线性向量机。当训练数据可分时，通过硬间隔最大化，学习一个线性的分类器；当训练数据近似可分时，通过软间隔最大化也学习一个线性的分类器；当训练数据不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

当输入空间为欧式空间或离散集合，特征空间为希尔伯特空间时，使用核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机，等价于隐士的在高维的特征空间学习线性支持向量机，这样的技巧称之为核技巧。

1.线性可分支持向量机

(1)线性可分支持向量机

假设给定一个特征空间上的训练数据集

T = (x 1, y 1), (x 2, y 2), . . ., (x N, y N)

$T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ 再假设训练数据集是线性可分的。学习的目标是在特征空间找到一个分离超平面，能将实例分到不同的类。分离超平面对应于方程

w∗x+b=0 $w*x+b=0$ ,他由法向量w和截距b决定。
给定线性可分训练集，通过间隔最大化或等价的求解相应的凸二次规划问题学习得到的分离超平面为

w * x + b * = 0

$w^*x+b^*=0$
以及对应的分类决策函数

f (x) = s i g n (w * x + b *)

$f(x)=sign(w^*x+b^*)$ 称为线性可分支持向量机。
间隔最大化的问题及相应的约束在下面讨论，现在先介绍函数间隔和几何间隔的概念。

(2)函数间隔和几何间隔

一般来说，一个点距离分离超平面的远近可以表示分类越策的准确程度，在超平面确定的情况下，|w*x+b|能表示点x距离超平面的远近，而w*x+b得符号与类标记y的符号是否一致能表达分类是否正确。所以可用y（w*x+b）来表示分类的正确性及其确性度，这就是函数间隔的概念。

对于给定的训练数据集T和超平面（w，b），定义超平面（w，b）关于样本点的函数间隔为

y i (w * x i + b)

$y_i(w*x_i+b)$ 定义超平面（w，b）关于训练数据集T的函数间隔为超平面（w，b）中所有样本点

(xi,yi) $(x_i,y_i)$ 的函数间隔之最小值。

函数间隔可以表示分类预测的正确性及其确信度，但是选择分类超平面时，只有函数间隔还不够，因为只要成比例的改变w和b，超平面没有变化，但函数间隔确变成了原来的两倍。所以我们要对分离超平面的法向量w加某些约束，如||w||=1，这时间隔是确定的。这时的函数间隔变成的几何间隔。

对于给定的训练数据集T和超平面（w，b），定义超平面（w，b）关于样本点的几何间隔为

y i (w | | w | | * x i + b | | w | |)

$y_i(\dfrac{w}{||w||}*x_i+\dfrac{b}{||w||})$ 定义超平面（w，b）关于训练数据集T的几何间隔为超平面（w，b）中所有样本点

(xi,yi) $(x_i,y_i)$ 的几何间隔之最小值。

(3)间隔最大化

支持向量机学习的基本思想是求解能够正确划分的训练数据集并且几何间隔最大的分离超平面。对线性可分的训练数据集而言，线性可分分离超平面有无数多个（等价与感知机），但是几何间隔最大的分离超平面是唯一的，这里的间隔最大化又称之为硬间隔最大化。其直观解释为：对训练数据集找到几何间隔最大化的超平面意味着以充分大的确信度对训练数据集进行分类，也就是说不仅把正负样本点分开，而且对最难分的实例（距离超平面最近的点）也有足够大的确信度把它们分开。

考虑如何求得一个几何间隔最大的分离超平面，即最大间隔分离超平面。具体的可以表示为以下的约束最优化问题

m a x w, b γ

$max_{w,b} \quad \gamma$

s . t y i (w | | w | | x i + b | | w | |) > = γ, i = 1, 2, . ., N

$s.t \quad y_i(\dfrac {w}{||w||}x_i+\dfrac{b}{||w||})>=\gamma,\quad i=1,2,..,N$ 即我们希望最大化超平面（w，b）关于训练数据集的几何间隔在满足约束条件的前提下。

考虑到几何间隔和函数间隔的关系，我们可以把上式写成

m a x w, b γ ^ | | w | |

$max_{w,b} \quad \dfrac{\hat{\gamma}}{||w||}$

s . t y i (w x i + b) > = γ^, i = 1, 2, . ., N

$s.t \quad y_i( wx_i+b)>=\hat{\gamma},\quad i=1,2,..,N$
函数间隔

γ^ $\hat{\gamma}$ 的取值并不影响最优化问题的解，事实上，假设w和b按比例的改变，函数间隔的值可以任意改变，所以我们可以假设

γ^ $\hat{\gamma}$ =1，并把他带入到上式最优化问题中，注意到最大化

1||w|| $\dfrac{1}{||w||}$ 和最小化

12||w||2 $\dfrac{1}{2}||w||^2$ 是等价的，于是我们得到下面的线性可分支持向量机学习优化问题

m i n w, b 1 2 | | w | | 2

$min_{w,b}\quad \dfrac{1}{2}||w||^2$

s . t y i (w x i + b) - 1 > = 0 i = 1, 2, . . ., N

$s.t\quad y_i(wx_i+b)-1>=0\quad i=1,2,...,N$
线性可分支持向量机学习算法–最大间隔法
输入：线性可分训练集T=

{(x1,y1),(x2,y2),...,(xN,yN)} $\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中，

xiϵRn,yiϵ{−1,1},i=1,2,...N $x_i\epsilon R^n,y_i\epsilon \{-1,1\},\quad i=1,2,...N$ ;
输出：最大间隔分离超平面和分类决策函数
（1）构造并求解约束最优化问题：

m i n w, b 1 2 | | w | | 2

$min_{w,b}\quad \dfrac{1}{2}||w||^2$

s . t y i (w x i + b) - 1 > = 0 i = 1, 2, . . ., N

$s.t\quad y_i(wx_i+b)-1>=0\quad i=1,2,...,N$
（2）由此得到分离超平面：

w * x + b * = 0

$w^*x+b^*=0$
分类决策函数：

f (x) = s i g n (w * x + b *)

$f(x)=sign(w^*x+b^*)$

支持向量：在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的实例称为支持向量。即

y i (w x i + b) - 1 = 0

$y_i(wx_i+b)-1=0$

（4）对偶算法

为了求解线性可分支持向量机的最优化问题，将它作为原始最优化问题，应用拉格朗日对偶性，同求解对偶问题得到原始问题的最优解。

首先构建拉格朗日函数，为此引入拉格朗日因子，定义拉格朗日函数;

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w x i + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\dfrac{1}{2}||w||^2-\sum _{i=1}^N\alpha_iy_i(wx_i+b)+\sum_{i=1}^N\alpha_i$ 其中

α=(α1,...,αN)T $\alpha=(\alpha_1,...,\alpha_N)^T$ 为拉格朗日乘子向量。

由于 $max_\alpha L(w,b,\alpha)=\dfrac{1}{2}||w||^2$ ，所以原问题为 $min_{w,b}\dfrac{1}{2}||w||^2$ 即

m i n w, b max α L (w, b, α)

$min_{w,b}\max_\alpha L(w,b,\alpha)$ 对偶问题为

m a x α min w, b L (w, b, α)

$max_\alpha \min_{w,b} L(w,b,\alpha)$
<1>首先求

minw,b L(w,b,α) $min_{w,b} \ L(w,b,\alpha)$ :
将拉格朗日函数

L(w,b,α) $L(w,b,\alpha)$ 分别对w，b求偏导数并令其等于0

\nabla w L (w, b, α) = 0

$\nabla_wL(w,b,\alpha)=0$

\nabla b L (w, b, α) = 0

$\nabla_b L(w,b,\alpha)=0$
得：

w = \sum i = 1 N α i y i x i = 0

$w=\sum_{i=1}^N\alpha_iy_ix_i=0$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$ 将上式带入拉格朗日函数得：

L (w, b, α) = 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i * x j) - \sum i = 1 N α i y i (\sum j = 1 N α j y j x j * x j + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)-\sum_{i=1}^N\alpha_iy_i(\sum_{j=1}^N\alpha_jy_jx_j*x_j+b)+\sum_{i=1}^N\alpha_i$
即：

L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i * x j) + \sum i = 1 N α i

$L(w,b,\alpha)=-\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)+\sum_{i=1}^N\alpha_i$
<2>求

minw,bL(w,b,α) $min_{w,b}L(w,b,\alpha)$ 对

α $\alpha$ 的极大，即等价为对偶问题

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i * x j)

$min_\alpha \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)$

s . t \sum i = 1 N α i x i = 0

$s.t\quad \sum_{i=1}^N\alpha_ix_i=0$

α i > = 0 i = 1, 2, . . ., N

$\alpha_i>=0\quad i=1,2,...,N$

求出 $\alpha$ 的值即可得到w和b的最优解，由上可知w和b为

w * = \sum i = 1 N α i y i x i

$w^*=\sum_{i=1}^N\alpha_iy_ix_i$

b * = y j - \sum i = 1 N α * i y i (x i * x j)

$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i*x_j)$

2.线性支持向量机

（1）线性支持向量机

线性可分问题的支持向量机学习方法，对线性不可分训练数据集是不适用的，这时就修改硬间隔最大化为软间隔最大化。通常情况下，训练数据集中有一些奇异点，将这些奇异点去掉之后训练集还是可分的。

线性不可分意味着样本点不能满足函数间隔大于等于1的条件。为了解决这个问题，对每个样本点加一个松弛变量 $\gamma>=0$ ,使得函数间隔加上松弛变量大于等于1，这样约束条件就变成：

y i (w x i + b) > = 1 - γ i

$y_i(wx_i+b)>=1-\gamma_i$ 目标函数有原来的

12||w||2 $\dfrac{1}{2}||w||^2$ 变成

1 2 | | w | | 2 + C \sum i = 1 N γ i

$\dfrac{1}{2}||w||^2+C\sum_{i=1}^N\gamma_i$ 这里，C>0称为惩罚参数，C值大时对误分类的惩罚大。
线性不可分的线性支持向量机的学习问题变成了如下问题（原始问题）：

m i n w, b 1 2 | | w | | 2 + C \sum i = 1 N γ i

$min_{w,b}\quad \dfrac{1}{2}||w||^2+C\sum_{i=1}^N\gamma_i$

y i (w * x i + b) > = 1 - γ i i = 1, 2, . . . N

$y_i(w^*x_i+b)>=1-\gamma_i\quad i=1,2,...N$

γ i > = 0 i = 1, 2, . . . N

$\gamma_i>=0\quad i=1,2,...N$

对于给定的线性不可分的训练数据集，通过求解凸优化问题可得到分离超平面以及对应的分类决策函数。称之为线性支持向量机

（2）学习的对偶问题

原始问题的拉格朗日函数是：

L (w, b, α, μ) = 1 2 | | w | | 2 + C \sum i = 1 N γ i - \sum i = 1 N α i (y i (w x i + b) - 1 + γ i) - \sum i = 1 N μ i γ i

$L(w,b,\alpha,\mu)=\dfrac{1}{2}||w||^2+C\sum_{i=1}^N\gamma_i-\sum_{i=1}^N\alpha_i(y_i(wx_i+b)-1+\gamma_i)-\sum_{i=1}^N\mu_i\gamma_i$

αi>=0,μi>=0 $\alpha_i>=0,\mu_i>=0$
对偶问题是拉格朗日函数的极大极小问题。首先求

L(w,b,γ,α,μ) $L(w,b,\gamma,\alpha,\mu)$ 对

w,b,γ $w,b,\gamma$ 的极小，对拉格朗日函数求导得：

w = \sum i = 1 N α i x i y i

$w=\sum_{i=1}^N\alpha_ix_iy_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$

C - α i - μ i = 0

$C-\alpha_i-\mu_i=0$ 既得对偶问题：

m a x α - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i * x j) + \sum i = 1 N α i

$max_\alpha-\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)+\sum_{i=1}^N\alpha_i$

s . t w = \sum i = 1 N α i x i y i

$s.t\quad w=\sum_{i=1}^N\alpha_ix_iy_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$

C - α i - μ i = 0

$C-\alpha_i-\mu_i=0$ 后面三个条件等价于

0<=αi<=C $0<=\alpha_i<=C$

所以线性支持向量机算法为：
输入：训练数据集T={ $(x_1,y_1),...,(x_n,y_n$ }
输出：分离超平面和分类决策函数
（1）选择惩罚参数C>0,构造二次规划问题

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i * x j) - \sum i = 1 N α i

$min_{\alpha}\quad\quad \dfrac{1}{2} \sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i*x_j)-\sum_{i=1}^N\alpha_i$

s . t \sum i = 1 N α i y i = 0

$s.t\quad\quad \sum_{i=1}^N\alpha_iy_i=0$

0 < = α i < = C, i = 1, 2, . . ., N

$0<=\alpha_i<=C,\quad i=1,2,...,N$
求得最优解

]α∗=(α∗1,α∗2,...,α∗N)T $]\alpha_*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ .
(2)计算

w∗=∑Ni=1αiyixi $w^*=\sum_{i=1}^N\alpha_iy_ix_i$
选择一个合适的分量满足

0<α∗j<C $0<\alpha_j^*<C$ ,计算

b * = y j - \sum i = 1 N y i α * i (x i * x j)

$b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i*x_j)$
（3）求得分离超平面为

w * x + b * = 0

$w^*x+b^*=0$ 分类决策函数为

f (x) = s i g n (w * x + b *)

$f(x)=sign(w^*x+b^*)$

（3）支持向量

在线性不可分的情况下，将对偶问题的解中对应于 $\alpha_i>0$ 的样本点 $(x_i,y_i)$ 的实例 $x_i$ 称为支持向量（软间隔的支持向量）。软间隔的支持向量 $x_i$ 或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分类一侧。如 $\alpha_i<C$ ,则 $\gamma_i=0$ ，支持向量 $x_i$ 正好落在间隔边界上；若 $\alpha_<C,0<\gamma_i<1$ ，则分类正确， $x_i$ 在间隔边界和分离超平面之间；若 $\alpha_i<C,\gamma_i=1$ ,则 $x_i$ 在分离超平面上；若 $\alpha_i<C,\gamma_i>1$ ,则 $x_i$ 位于分离超平面误分类一侧。

3.非线性支持向量机

(1)核技巧

核技巧运用到支持向量机，其基本思想就是通过一个非线性变换将输入空间对应于一个特征空间，使得在输入空间中的超曲面模型对应于特征空间的超平面模型（支持向量机）。这样，分类问题的学习任务通过在特征空间中求解线性支持向量机就可以完成。
核函数的定义：
设X是输入空间，又设H是特征空间，如果存在一个从X到H的映射

μ (x) : X - - > H

$\mu(x):X-->H$ 使得对所有的x，z在X中，函数K(x,z)满足条件

K (x, z) = μ (x) * μ (z)

$K(x,z)=\mu(x)*\mu(z)$ 称K(x,z)为核函数，式中为内积。
我们注意到在线性支持向量机的对偶问题中，无论是目标函数还是决策函数都只涉及输入实例与实例之间的内积。在对偶问题的目标函数中的内积

xixj $x_ix_j$ 可以用核函数

K(xi,xj)=μ(xi)μ(xj) $K(x_i,x_j)=\mu(x_i)\mu(x_j)$ 来代替，于是非线性支持向量机的算法变成了：
输入：训练数据集T={

(x1,y1),...,(xn,yn $(x_1,y_1),...,(x_n,y_n$ }
输出：分离超平面和分类决策函数
（1）选择惩罚参数C>0,构造二次规划问题

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i, x j) - \sum i = 1 N α i

$min_{\alpha}\quad\quad \dfrac{1}{2} \sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$

s . t \sum i = 1 N α i y i = 0

$s.t\quad\quad \sum_{i=1}^N\alpha_iy_i=0$

0 < = α i < = C, i = 1, 2, . . ., N

$0<=\alpha_i<=C,\quad i=1,2,...,N$
求得最优解

]α∗=(α∗1,α∗2,...,α∗N)T $]\alpha_*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ .
(2)计算

w∗=∑Ni=1αiyixi $w^*=\sum_{i=1}^N\alpha_iy_ix_i$
选择一个合适的分量满足

0<α∗j<C $0<\alpha_j^*<C$ ,计算

b * = y j - \sum i = 1 N y i α * i K (x i, x j)

$b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*K(x_i,x_j)$
（3）求得分离超平面为

w * x + b * = 0

$w^*x+b^*=0$ 分类决策函数为

f (x) = s i g n (w * x + b *)

$f(x)=sign(w^*x+b^*)$

崔中江

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使他有别于感知机；支持向量机还包括核技巧，这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化问题。支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机，线性支持向量
复制链接

扫一扫