支持向量机笔记-硬间隔支持向量机

最新推荐文章于 2024-05-03 16:18:50 发布

饺子醋

最新推荐文章于 2024-05-03 16:18:50 发布

阅读量1.3k

点赞数

分类专栏： machine learning algorithm 文章标签： SVM 支持向量机线性可分算法优化

本文链接：https://blog.csdn.net/coderTC/article/details/78520321

版权

machine learning 同时被 2 个专栏收录

8 篇文章 3 订阅

订阅专栏

algorithm

8 篇文章 0 订阅

订阅专栏

支持向量机概述
- 符号定义
硬间隔支持向量机
说明

支持向量机概述

支持向量机的基础是定义在特征空间上的间隔最大的线性分类器。

当训练数据线性可分时，通过硬间隔最大化学习一个线性分类器；当训练数据近似线性可分时，通过软间隔最大化学习一个线性分类器；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

符号定义

考虑二分类问题。

训练数据集：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中，

xi∈Rn,yi∈{+1,−1},i=1,2,...,N $x_i\in R^n,y_i\in \{+1,-1\},i=1,2,...,N$ ，假设训练集是线性可分的。

超平面公式：

w \cdot x + b = 0

$w\cdot x+b=0$
其中，

w $w$ 是法向量，

b $b$ 是截距。

硬间隔支持向量机

所谓硬间隔就是指线性可分，那什么是支持呢？先来了解函数间隔。

函数距离

样本点 $(x_i,y_i)$ 关于超平面 $(w,b)$ 的函数距离为：

γ i^= y i (w \cdot x i + b)

$\hat{\gamma_i}=y_i(w\cdot x_i+b)$
为什么这么定义，有啥用？这是因为：
-

|w⋅xi+b| $|w\cdot x_i+b|$ 能够相对地表示样本点

xi $x_i$ 到超平面的距离
-

w⋅xi+b $w\cdot x_i+b$ 的符号与类标记符号

yi $y_i$ 是否一致能够表示分类是否正确

$\hat{\gamma_i}=y_i(w\cdot x_i+b)$ 将以上两点统一起来，表示分类的正确性以及确信度。

几何距离

函数距离有个问题，成比例地改变 $w$ 和 $b$ ，超平面没变，但是函数间距离会按照相应比例改变，而几何距离不会。

几何距离就是样本点在几何上到超平面的距离。

回忆高中所学点到平面的距离公式：

d = ∣ ∣ ∣ A x 0 + B y 0 + C x 0 + D A 2 + B 2 + C 2 - - - - - - - - - - - \sqrt ∣ ∣ ∣

$d=\left|\frac{Ax_0+By_0+Cx_0+D}{\sqrt{A^2+B^2+C^2}}\right|$
加个绝对值是因为考虑到点在平面不同侧。

而几何距离的公式为：

γ i = y i (w \cdot x i + b | | w | |)

$\gamma_i=y_i\left(\frac{w\cdot x_i+b}{||w||}\right)$
对比以上两个公式，后者的

w $w$ 就相当于向量

(A,B,C) $(A,B,C)$ ，

xi $x_i$ 就相当于样本点

(x0,y0,y0) $(x_0,y_0,y_0)$ ，乘以类标记

yi $y_i$ 取代了绝对值，实现相同的作用。

再对比下函数距离的公式 $\hat{\gamma_i}=y_i(w\cdot x_i+b)$ ，可知：

γ i = γ i ^ | | w | |

$\gamma_i=\frac{\hat{\gamma_i}}{||w||}$
即，对函数距离做一下规范化就得到几何距离。

几何间隔和函数间隔

上面两小节介绍了一个点到超平面的距离，接下来说一个样本集到一个超平面的间隔。

几何间隔的定义：样本集中所有样本点到超平面几何间隔的最小值。

即：

γ = min i = 1, . . ., N γ i

$\gamma=\min\limits_{i=1,...,N}\gamma_i$
仔细品味一下，几何间隔囊括了超平面两侧的点。

同理，函数间隔为：

γ^= min i = 1, . . ., N γ^i

$\hat\gamma=\min\limits_{i=1,...,N}\hat\gamma_i$
并且有：

γ = γ ^ | | w | |

$\gamma=\frac{\hat{\gamma}}{||w||}$

对于一个线性可分的样本集，用一个超平面将他们分开，可以找到无数个这样的超平面，只要能其正确分开就行。

那么孰优孰劣呢？

田家庄和刘家庄由于耕地划分问题闹起纠纷了，他们请乡里德高望重的长者为他们在两村之间划一条分界线，长者思考的思路大致应该是，划的这条线要尽可能地离两个村都远，也就是离两个村所有的家院尽可能地远，也就是最大化界线到两村所有家院的距离。

间隔最大化对应的最优化问题

长者的问题跟我们一样，那么我们要找一个最优超平面把两类样本分开，只需要找一个几何间隔最大的超平面，这个问题的数学表示为：

max w, b γ

$\max\limits_{w,b}\text{ }\gamma$

s . t . γ = min i = 1, . . ., N γ i i = 1, 2, . . ., N

$s.t.\text{ }\gamma=\min\limits_{i=1,...,N}\gamma_i\qquad i=1,2,...,N$
即：

max w, b γ

$\max\limits_{w,b}\text{ }\gamma$

s . t . y i (w \cdot x i + b | | w | |) ⩾ γ i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(\frac{w\cdot x_i+b}{||w||}\right)\geqslant \gamma\qquad i=1,2,...,N$
即：

max w, b γ ^ | | w | |

$\max\limits_{w,b}\text{ }\frac{\hat\gamma}{||w||}$

s . t . y i (w \cdot x i + b) ⩾ γ^i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)\geqslant\hat{\gamma}\qquad i=1,2,...,N$
等价于：

max w, b 1 | | w | |

$\max\limits_{w,b}\text{ }\frac{1}{||w||}$

s . t . y i (w \cdot x i + b) ⩾ 1 i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)\geqslant1\qquad i=1,2,...,N$
等价于：

min w, b 1 2 | | w | | 2

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 ⩾ 0 i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)-1\geqslant0\qquad i=1,2,...,N$
之所以把最大化

1||w|| $\frac{1}{||w||}$ 换为最小化

12||w||2 $\frac{1}{2}||w||^2$ ，是因为（待）

现在问题确定下来了，就是上面一个最优化问题，那么如何求解呢？

求解间隔最大化对应的最优化问题的算法

先说结论，线性可分支持向量机求解算法为：（原始问题不赘述）
1. 求解下面的约束最优化问题

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i

$\min\limits_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$

s . t . \sum i = 1 N α i y i = 0

$s.t.\quad\sum_{i=1}^N\alpha_i y_i=0$

α i ⩾ 0, i = 1, 2, . . ., N

$\alpha_i\geqslant0,\quad i=1,2,...,N$
求得最优解

α∗=(α∗1,α∗2,...,α∗N)T $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 。
2. 用公式计算超平面参数

w * = \sum i = 1 N α * i y i x i

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
选择

α∗ $\alpha^*$ 的一个正分量

α∗j>0 $\alpha_j^*>0$ ，找到

yj $y_j$

b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)

$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$
3. 获得超平面方程以及决策函数

w * \cdot x + b * = 0

$w^*\cdot x+b^*=0$
分类决策函数：

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^*\cdot x+b^*)$

算法原理

接来下是该问题求解算法，如果有意了解算法原理，并且不熟悉拉格朗日对偶性，请先自行补课。

回到间隔最大化对应的最优化问题：

min w, b 1 2 | | w | | 2

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 ⩾ 0 i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)-1\geqslant0\qquad i=1,2,...,N$
这是个约束优化问题，可以使用拉格朗日对偶性来求解。

首先构建拉格朗日函数：

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\alpha_i$
根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题，可以通过求解这个问题来获得原始问题的解：

max α min w, b L (w, b, α)

$\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)$
那么：
1. 求

minw,bL(w,b,α) $\min\limits_{w,b}L(w,b,\alpha)$
将

L(w,b,α) $L(w,b,\alpha)$ 分别对

w,b $w,b$ 求偏导并令其等于0。

▽ w L (w, b, α) = w - \sum i = 1 N α i y i x i = 0

$\triangledown_wL(w,b,\alpha)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$

▽ b L (w, b, α) = \sum i = 1 N α i y i = 0

$\triangledown_bL(w,b,\alpha)=\sum_{i=1}^N\alpha_iy_i=0$
得：

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^N\alpha_iy_ix_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$
将它们代入拉格朗日函数

L(w,b,α) $L(w,b,\alpha)$ ，得：

min w, b L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

$\min\limits_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$
2. 求

maxαminw,bL(w,b,α) $\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)$

max α min w, b L (w, b, α) = max α ⎛ ⎝ - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i ⎞ ⎠

$\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)=\max\limits_{\alpha}\left(-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\right)$

s . t . \sum i = 1 N α i y i = 0

$s.t.\quad\sum_{i=1}^N\alpha_iy_i=0$

s . t . α i \geq 0, i = 1, 2, . . ., N

$s.t.\quad\alpha_i\geq0,\quad i=1,2,...,N$

然后就去解吧。。。各种代入和求导取零，解 $\alpha$ 就是了，解出来 $\alpha$ 再利用步骤1求导数置0得到的的结论求 $w,b$ 。

为什么叫支持向量机

关键是弄清“支持”是什么意思。

好理解的解释

对分类超平面的选取没有任何影响的样本点不叫“支持向量”。
对分类超平面的选取有影响的样本点叫“支持向量”。

住在北京二环里面的人们不在乎北京和天津之间要新修的飞机场究竟离二者谁更近，反正噪音他们听不见。
而住在北京和天津之间的郊区的两个城市的居民十分在乎并且表示将积极参与新址规划问题。
二环里的人们就不是支持向量，郊区的人们就是支持向量。

更好理解的解释（数学解释）

我们看解出来的 $w,b$ 的公式：

w * = \sum i = 1 N α * i y i x i

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$

b * = y j - \sum i = 1 N α * i y i (x i \cdot x j) α * j > 0

$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)\quad\alpha_j^*>0$

$w^*$ 的公式中，如果 $\alpha_i^*=0$ ，那么对应的 $(x_i,y_i)$ 就不会对 $w^*$ 的计算产生任何印象，它们就是“住在二环里的居民”；如果如果 $\alpha_i^*\neq0$ ，那么对应的 $(x_i,y_i)$ 就参与了超平面的确定，它们就是住在“飞机场附近的居民”。