支持向量机（support vector machine，SVM）

最新推荐文章于 2024-03-03 12:13:13 发布

Sogues

最新推荐文章于 2024-03-03 12:13:13 发布

阅读量538

点赞数 1

分类专栏：机器学习算法文章标签：机器学习统计学习方法支持向量机 SVM 人工智能

本文链接：https://blog.csdn.net/caoke_1994/article/details/80169690

版权

机器学习算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写在前面

此blog是学习李航《统计学习方法》相关章节后的小结与推演过程，强化自身记忆

定义

支持向量机是一种二类分类模型。基本模型是定义在特征空间上的间隔最大的线性分类器。

线性可分支持向量机

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为

w * \cdot x + b * = 0

$w^{*}\cdot x + b^{*} = 0$
以及相应的决策函数

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^{*}\cdot x+ b^{*})$

函数间隔

对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ，定义超平面关于样本点 $(x_i, y_i)$ 的函数间隔为

γ i^= y i (w \cdot x i + b)

$\hat{\gamma_{i}}=y_i(w\cdot x_i +b)$
定义超平面

(w,b) ( w , b ) $(w, b)$ 关于训练数据集

T T $T$ 的函数间隔为超平面

(w, b)

$(w,b)$ 关于

T T $T$ 中所有样本点

(x_{i}, y_{i})

$(x_i, y_i)$ 的函数间隔最小值，即

γ^= m i n i = 1, . . ., N γ i^

$\hat{\gamma}=\mathop{min}_{i=1,...,N}\hat{\gamma_i}$
由于函数间隔

γ γ $\gamma$ 随着

w,b w , b $w, b$ 按比例改变，但是超平面未改变，而函数间隔却按比例改变，因此对超平面的法向量

w w $w$ 增加约束，规范化后使

| | w | | = 1

$||w|| = 1$ ，这使得

(xi,yi) ( x i , y i ) $(x_i, y_i)$ 关于同一个超平面的距离是确定的，即此距离为几何距离

几何间隔

对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ，定义超平面 $(w,b)$ 关于样本点 $(x_i, y_i)$ 的几何间隔最小，即

γ i = y i (w | | w | | \cdot x i + b | | w | |)

${\gamma_{i}}=y_i(\frac{w}{||w||}\cdot x_i +\frac{b}{||w||})$
同样，有几何间隔之最小值

γ = m i n i = 1, . . ., N γ i

${\gamma}=\mathop{min}_{i=1,...,N}{\gamma_i}$
故而，二者有如下关系：

γ i = γ = γ i ^ | | w | | γ ^ | | w | |

$\begin{align*} \gamma_i =& \frac{\hat{\gamma_{i}}}{||w||} \\ \gamma =& \frac{\hat{\gamma}}{||w||} \end{align*}$

间隔最大化

支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面
1. 最大间隔分离超平面
求得几何间隔最大的分离超平面，即最大间隔分离超平面，可表示为如下约束最优化问题

m a x w, b γ s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N

$\begin{align*} &\mathop{max}_{w,b} \quad \gamma \\ &s.t. \quad y_i(\frac{w}{||w||}\cdot x_i + \frac{b}{||w||}) \geq {\gamma}, \quad i=1,2,...,N \end{align*}$
由上述几何间隔与函数间隔的关系，上述约束最优化问题可转化为

m a x w, b γ ^ | | w | | s . t . y i (w \cdot x i + b) \geq γ^, i = 1, 2, . . ., N

$\begin{align*} &\mathop{max}_{w,b} \quad \frac{\hat{\gamma}}{||w||} \\ &s.t. \quad y_i({w}\cdot x_i + {b}) \geq \hat{\gamma}, \quad i=1,2,...,N \end{align*}$
由于

γ^ γ ^ $\hat{\gamma}$ 与

w,b w , b $w, b$ 按比例变化，因此可直接将

γ^||w|| γ ^ | | w | | $\frac{\hat{\gamma}}{||w||}$ 等价为

1||w|| 1 | | w | | $\frac{1}{||w||}$ ，同时又有最大化

1||w|| 1 | | w | | ${\frac{1}{||w||}}$ 与最小化

12||w||2 1 2 | | w | | 2 ${\frac12||w||^2}$ 等价，故而约束最优化问题为：

m i n w, b 1 2 | | w | | 2 s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

$\begin{align*} &\mathop{min}_{w,b} \quad {\frac12||w||^2}\\ &s.t. \quad y_i({w}\cdot x_i + {b}) - 1\geq 0, \quad i=1,2,...,N \end{align*}$
此时，这是一个凸二次规划问题
2.最大间隔分离超平面的存在唯一性
若训练数据集

T T $T$ 线性可分，则可将训练数据集中的样本点完全正确的分开的最大间隔分离超平面存在且唯一
3. 支持向量和间隔边界
在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector）。支持向量约束条件式

y_{i} (w \cdot x_{i} + b) - 1 = 0

$y_i(w\cdot x_i + b) - 1 = 0$
间隔边界为 $\frac{2}{||w||}$

对偶算法

为了求解线性可分支持向量机的最优化问题，将它最为原始问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解。
定义拉格朗日函数

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

${L}(w,b,\alpha)=\frac12||w||^{2}-\sum_{i=1}^{N}\alpha_{i}y_{i}(w\cdot x_{i}+b)+\sum_{i=1}^ {N}\alpha_i$
首先了解一下KKT条件:
* 令

L(x) L ( x ) $L(x)$ 对

x x $x$ 的偏导数均为 0，即

\frac{\partial L (x)}{\partial x} = 0

$\frac{\partial{L(x)}}{\partial{x}} = 0$
* 等式约束

h(x)=0 h ( x ) = 0 $h(x) = 0$
* 不等式约束配合 KKT 乘子有

∑αg(x)=0 ∑ α g ( x ) = 0 $\sum\alpha g(x) = 0$ ，其中

g(x)≤0,α≥0 g ( x ) ≤ 0 , α ≥ 0 $g(x) \leq 0,\quad \alpha \geq 0$
原始问题为极小极大问题：

m i n w, b m a x α L (w, b, α)

$\mathop{min}_{w,b}\mathop{max}_{\alpha}L(w, b, \alpha)$
其对偶问题为极大极小问题：

m a x α m i n w, b L (w, b, α)

$\mathop{max}_{\alpha}\mathop{min}_{w,b}L(w, b, \alpha)$
1. 先求对

lagrange l a g r a n g e $lagrange$ 函数的极小问题，将

L(w,b,α) L ( w , b , α ) $L(w, b, \alpha)$ 分别对

w,b w , b $w,b$ 求偏导并令其等于 0

\nabla w L (w, b, α) \nabla b L (w, b, α) = 0 = 0

$\begin{align*} \nabla_wL(w,b , \alpha) &= 0\\ \nabla_bL(w, b, \alpha) &= 0 \end{align*}$
得

w = \sum i = 1 N α i y i x i \sum i = 1 N α i y i = 0

$\begin{align*} &w=\sum_{i=1}^{N}\alpha_iy_ix_i\\ &\sum_{i=1}^N\alpha_iy_i = 0 \end{align*}$
带入

Lagrange L a g r a n g e $Lagrange$ 函数，得

m i n w, b L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

$\mathop{min}_{w,b}L(w,b,\alpha)=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$
2. 求

lagrange l a g r a n g e $lagrange$ 函数的极大问题

m a x α s . t . - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, . . ., N

$\begin{align*} \mathop{max}_\alpha &-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ s.t. \quad&\sum_{i=1}^N\alpha_iy_i = 0\\ &\alpha_i \geq 0,\quad i=1,2,...,N \end{align*}$
与之等价的对偶最小化问题即为

m i n α s . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, . . ., N

$\begin{align*} \mathop{min}_\alpha &\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ s.t. \quad&\sum_{i=1}^N\alpha_iy_i = 0\\ &\alpha_i \geq 0,\quad i=1,2,...,N \end{align*}$

线性支持向量机与软间隔最大化

由于线性可分支持向量机对线性不可分数据是不适用的，因此修改硬间隔最大化为软间隔最大化
线性不可分意味着某些样本点 $(x_i, y_i)$ 无法满足函数间隔大于等于1的约束条件。因此引入松弛变量 $\xi_i \geq 0$ ，是函数间隔加上松弛变量大于等于1，因此，约束条件转为如下：

y i (w \cdot x i + b) \geq 1 - ξ i

$y_i(w\cdot x_i + b) \geq 1 - \xi_i$
对于每个松弛变量

ξi ξ i $\xi_i$ 支付一个代价

ξi ξ i $\xi_i$ ，目标函数则为：

1 2 | | w | | 2 + C \sum i = 1 N ξ i

$\frac12||w||^2 +C\sum_{i=1}^N\xi_i$
此处

C>0 C > 0 $C >0$ 为惩罚参数，
此时线性不可分的线性支持向量机的学习问题变为凸二次规划问题：

m i n w, b, ξ s . t . 1 2 | | w | | 2 + c \sum i = 1 N ξ i y i (w \cdot x i + b) \geq 1 - ξ i, i = 1, 2, . . ., N ξ i \geq 0, i = 1, 2, . . ., N

$\begin{align*} \mathop{min}_{w, b, \xi}\quad&\frac12||w||^2+c\sum_{i=1}^N\xi_i\\ s.t.\quad&y_i(w\cdot x_i+b) \geq 1-\xi_i,\quad i=1,2,...,N\\ &\xi_i \geq 0,\quad i=1,2,...,N \end{align*}$
定义

lagrange l a g r a n g e $lagrange$ 函数：

L (w, b, ξ, α, β) = 1 2 | | w | | 2 + C \sum i = 1 N ξ i + \sum i = 1 N α i (1 - ξ i - y i (w \cdot x i + b)) + \sum i = 1 N β i (- ξ i)

$L(w,b,\xi,\alpha, \beta) = \frac12||w||^2 + C\sum_{i=1}^N\xi_i+\sum_{i=1}^N\alpha_i(1-\xi_i-y_i(w\cdot x_i+b)) + \sum_{i=1}^N\beta_i(-\xi_i)$
将原始

lagrange l a g r a n g e $lagrange$ 函数的极小极大问题转化为对偶问题的极大极小问题

m a x α, β m i n w, b, ξ L (w, b, ξ, α, β)

$\mathop{max}_{\alpha,\beta}\mathop{min}_{w,b,\xi}L(w,b,\xi,\alpha,\beta)$
同样，根据KKT约束，有条件如下

1. \nabla L \nabla w = 0, \nabla L \nabla b = 0, \nabla L \nabla ξ i = 0 2. \sum i = 1 N β i (- ξ i) = 0, β i \geq 0 3. \sum i = 1 N α i (1 - ξ i - y i (w \cdot x i + b)) = 0, α i \geq 0

$\begin{align*} &1.\quad\quad \frac{\nabla L}{\nabla w} = 0,\quad \frac{\nabla L}{\nabla b} = 0,\quad \frac{\nabla L}{\nabla \xi_i} = 0 \\ &2.\quad\quad \sum_{i=1}^N\beta_i(-\xi_i) = 0,\quad \beta_i \geq 0 \\ &3.\quad\quad \sum_{i=1}^N\alpha_i(1-\xi_i-y_i(w\cdot x_i+b)) = 0,\quad \alpha_i \geq 0 \end{align*}$
求解

minw,b,ξL(w,b,ξ,α,β) m i n w , b , ξ ⁡ L ( w , b , ξ , α , β ) $\mathop{min}_{w,b,\xi}L(w,b,\xi,\alpha,\beta)$ 得

m a x α s . t . - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i C = α i + β i \sum i = 1 N α i y i = 0

$\begin{align*} \mathop{max}_\alpha \quad&-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \\ s.t. \quad& C = \alpha_i + \beta_i \\ \quad&\sum_{i=1}^N\alpha_iy_i = 0\\ \end{align*}$
由于

βi≥0 β i ≥ 0 $\beta_i \geq 0$ ，故而

C=αi+βi C = α i + β i $C = \alpha_i + \beta_i$ 转化为

0≤αi≤C 0 ≤ α i ≤ C $0 \leq \alpha_i\leq C$
最终可求得判别式

f (x) = s i g n (\sum i = 1 N α i y i K (x i, x) + b)

$f(x) = sign(\sum_{i=1}^N\alpha_iy_iK(x_i,x)+b)$
分析此时点到分离超平面的集合距离

γ i = γ i ^ | | w | | = 1 - ξ i | | w | |

$\gamma_i=\frac{\hat{\gamma_i}}{||w||}=\frac{1-\xi_i}{||w||}$
其中

ξi||w|| ξ i | | w | | $\frac{\xi_i}{||w||}$ 为点到间隔边界的距离。
分析最优解

α∗ α ∗ $\alpha^*$

1. α * i = 2. α * i < 3. α * i = 0 ， 此 时 点 位 于 函 数 间 隔 外 ， 为 正 确 分 类 点 且 非 支 持 向 量 C ， 根 据 C = α + β ， 有 β i > 0, ξ i = 0 ， 此 时 点 为 支 持 向 量 C ， 有 β i = 0, 1 - ξ i - y i (w \cdot x i + b) = 0 ξ i = 0 ， 此 时 点 为 支 持 向 量 0 < ξ i < 1 ， 点 位 于 间 隔 边 间 与 分 离 超 平 面 之 间 ， 正 确 分 离 ξ i = 1 ， 点 处 于 分 离 超 平 面 上 ξ i > 1 ， 点 越 过 分 离 超 平 面 ， 点 处 于 错 误 分 类 状 态

$\begin{align*} 1.\quad \alpha_i^* =& 0，此时点位于函数间隔外，为正确分类点且非支持向量\\ 2.\quad \alpha_i^* <& C，根据C = \alpha + \beta，有\beta_i > 0, \xi_i = 0，此时点为支持向量\\ 3.\quad \alpha_i^* =& C，有\beta_i=0, 1-\xi_i-y_i(w\cdot x_i+b)=0\\ &\xi_i = 0，此时点为支持向量\\ &0 < \xi_i < 1，点位于间隔边间与分离超平面之间，正确分离\\ & \xi_i = 1，点处于分离超平面上\\ &\xi_i > 1，点越过分离超平面，点处于错误分类状态 \end{align*}$

Sogues

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机（support vector machine，SVM）

写在前面定义线性可分支持向量机函数间隔几何间隔间隔最大化对偶算法线性支持向量机与软间隔最大化写在前面此blog是学习李航《统计学习方法》相关章节后的小结与推演过程，强化自身记忆定义支持向量机是一种二类分类模型。基本模型是定义在特征空间上的间隔最大的线性分类器。线性可分支持向量机给定线性可分训练数据集，通过间隔最大...
复制链接

扫一扫

专栏目录