《支持向量机（SVM）》攻略

最新推荐文章于 2024-06-04 22:50:27 发布

DUT_Ming

最新推荐文章于 2024-06-04 22:50:27 发布

阅读量319

点赞数 2

分类专栏：机器学习 python 算法文章标签：算法机器学习支持向量机人工智能 svm

本文链接：https://blog.csdn.net/qq_45757266/article/details/117171563

版权

python 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

SVM推导&python实现

1-基本型推导

SVM优化公式的诞生

给定样本集, $D$ 中有 $n$ 个样本点
$D=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),\dots,(x_n,y_n)\},x_i\in R^{dim},y_i\in\{-1,1\},i=1,2,...,n$
SVM就是为了寻找一个超平面,将不同类别的样本分开

设超平面：
$(\omega,b):\omega^Tx+b=0,\omega,x\in R^{dim}$
- $\omega=(\omega_1,\omega_2,\omega_3,\dots,\omega_{dim})$ 为法向量，决定超平面的方向
- $b$ 为位移项，决定了超平面与原点之间的距离
样本空间中任意点 $x$ 到超平面 $(\omega,b)$ 的距离
$\gamma=\frac{|\omega^Tx+b|}{||\omega||}$
- 假设超平面 $(\omega,b)$ 能正确分类，则对于 $(x_i,y_i)\in D$ 有：
  $\left\{ \begin{aligned} &\omega^Tx_i+b>0,&y_i=1\\ &\omega^Tx_i+b<0,&y_i=-1\\ \end{aligned} \right.$
  逻辑回归的思路，但如果作为SVM算法的优化公式，明显取不到最优，因为这个是最基本的成立条件，不能确定这样的超平面 $(\omega,b)$ 最优的分隔样本空间
为了能取最优，SVM令：
$\left\{ \begin{aligned} &\omega^Tx_i+b\geq1,&y_i=1\\ &\omega^Tx_i+b\leq-1,&y_i=-1\\ \end{aligned} \right.$

1.如果 $x_i$ 是边界点，那么 $\omega^Tx_i+b=1$ ,所以这个方程组就是说一个有超平面将样本空间分隔为边界点之外，有了个超平面上下有了个空白区。
2.其中距离超平面最近的几个训练样本点使上式的等号成立，这几个训练样本就被称作支持向量（support vector），两个异类支持向量到超平面的距离之和，也称为间隔（margin）。 $\gamma=\frac{|b_1-b_2|}{||\omega||}=\frac{2}{||\omega||}$

SVM令间隔最大(也就是空白区),然后取中间的平面，因为其鲁棒性¹好。
所以文件就从找到一个最好的划分超平面转换为了找到样本空间里的最大化间隔。
$f:max_{\omega,b}\frac{2}{||\omega||}\\s.t.\ y_i(\omega^Tx_i+b)\geq1,i=1,2,...,n$
- 因为样本空间 $D$ 里总共有 $n$ 个点，所以 $i:1\to n,(x_i,y_i)$ 代表一个样本点
- 条件其实就想当与 $|(\omega^Tx_i+b)|\geq1，y_i$ 就是来消去负号的,就是跟SVM的约束条件一样，不信向上看。
SVM的基本型是求最小化，所以其形式就是将上式变形，得:
$f:min_{\omega,b}\frac{1}{2}{||\omega||}^2\\s.t.\ y_i(\omega^Tx_i+b)\geq1,i=1,2,...,n$
- 这样就转化为一个凸二次规划问题(convex quadratic programming)

凸优化问题：实际上是研究定义于凸集中的凸函数最小化问题。

凸集：
几何意义：指集合中任意两点间的线段永远在该集合中的集合
数学定义： $x,y\in C,\theta\in R,0\leq\theta\leq1,$ 有 $\theta x+(1-\theta)y\in C$

凸函数：
几何意义：函数任意两点 $(x, y)$ 连线上的值一定大于对应自变量区 $(x, y)$ 间内的函数值$(f(x),f(y))
数学定义： $\forall x,y\in D(f),\theta\in R,0\leq\theta\leq1,$ 有： $f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)$

简单来讲，凸函数问题再优化问题的形式为 $min\ f(x),\ s.t.x\in C$ 其中 $f$ 是一个凸函数， $C$ 为凸集， $x$ 是优化变量

专业的定义是这样的： $min\ f(x)\\\begin{aligned}&s.t.&g_i(x)\leq0,&i=1,...,m\\& &h_j(x)=0,&j=1,...,m\end{aligned}$ 其中 $f$ 是一个凸函数， $g_i$ 是一个凸函数， $h_i$ 为仿射函数， $x$ 是优化变量

常见的凸优化问题有：线性规划、二次规划、二次约束的二次规划、半正定规划

优化方法：通常一个优化问题可以从两个角度来考虑，即主问题(primal problem)和对偶问题(dual problem)。在约束最优化问题中，常常利用拉格朗日对偶性将原始问题（主问题）转换成对偶问题，通过解对偶问题来得到原始问题的解。这样做是因为对偶问题的复杂度往往低于主问题。 $f:min_{\omega,b}\frac{1}{2}{||\omega||}^2\\s.t.\ y_i(\omega^Tx_i+b)\geq1,i=1,2,...,n$ 在求解SVM的时候，我们也会通过其拉格朗日对偶性，将该主问题式转换成对偶问题，然后进行求解。

需要说明的是，因为主问题本身是一个凸二次规划问题，因此它是能直接用现成的优化计算包求解的，使用拉格朗日乘子法得到其对偶问题是为了优化运算效率。

Lagrange(拉格朗日)优化

单条件优化
高数上的教程上有，具体用得到再补课吧。
在约束 $g(x)\leq0$ 最小化 $f (x)$ 的任务，可以转化为 $f:min\ L(x,\lambda)=f(x)+\lambda g(x)\\ s.t. \left\{ \begin{aligned} &g(x)\leq0\\ &\lambda\geq0\\ &\lambda_jg_j(x)=0\\ \end{aligned} \right.$
多条件优化
具有 $m$ 个等式约束和 $n$ 个不等式，且可行域 $D\subset R^{dim}$ 非空优化问题
$min_x\ f(x)\\\begin{aligned}&s.t.&g_i(x)\leq0,&i=1,...,n\\& &h_j(x)=0,&j=1,...,m\end{aligned}$
引入拉格朗日算子 $\lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T$ 和 $\mu=(\mu_1,\mu_2,...,\mu_m)^T$ ,相应的拉格朗日函数为 $L(x,\lambda,\mu)=f(x)+\sum^n_{i=1}\lambda_ig_i(x)+\sum^m_{j=1}\mu_jh_j(x)\\ s.t. \left\{ \begin{aligned} &g_i(x)\leq0\\ &\lambda_i\geq0\\ &\lambda_ig_i(x)=0 \end{aligned} \right.$

SVM的lagrange函数

基本公式 $f:min_{\omega,b}\frac{1}{2}{||\omega||}^2\\s.t.\ y_i(\omega^Tx_i+b)\geq1,i=1,2,...,n$
- $f(\omega,b)=\frac{1}{2}{||\omega||}^2$
- $g(\omega,b)=1-y_i(\omega^Tx_i+b)\leq0,i=1,2,...,n$
- $h(\omega,b)=0$
带入 $l a g r a n g e$ 函数
$L(\omega,b,\alpha)=\frac{1}{2}{||\omega||}^2+\sum^n_{i=1}\alpha_i(1-y_i(\omega^Tx_i+b))$ 其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_n)$ 为拉格朗日算子， $\alpha\geq0$ 。

多约束对偶问题

多约束对偶问题的主问题
$min_x\ f(x)\\\begin{aligned}&s.t.&g_i(x)\leq0,&i=1,...,n\\& &h_j(x)=0,&j=1,...,m\end{aligned}$
其相应的拉格朗日函数为
$L(x,\lambda,\mu)=f(x)+\sum^n_{i=1}\lambda_ig_i(x)+\sum^m_{j=1}\mu_jh_j(x)$
主问题对应的拉格朗日函数 $\Gamma:R^n\cdot R^m\to R$ 定义为（ $i n f$ 下确界）： $\Gamma(\lambda,\mu)=inf_{x\in D}L(x,\lambda,\mu)=inf_{x\in D}(f(x)+\sum^n_{i=1}\lambda_ig_i(x)+\sum^m_{j=1}\mu_ih_j(x))$ 若 $\tilde{x}\in D$ 为主问题可行域中的点，则对任意 $\lambda\geq0$ 和 $\mu$ 都有 $\sum^m_{j=1}\mu_jh_j(x)+\sum^n_{i=1}\lambda_ig_i(x)\leq0$ 进而有 $\Gamma(\lambda,\mu)=inf_{x\in D}L(x,\lambda,\mu)\leq L(\tilde{x},\lambda,\mu)\leq f(\tilde{x})$ 若主问题的最优值为 $p^*$ ，则对任意 $\mu\geq0$ 和 $\lambda$ 都有 $\Gamma(\lambda,\mu)\leq p^*$ 即对偶函数给出了主问题最优值的下界。显然，这个下界取决于 $\mu$ 和 $\lambda$ 的值。于是一个很自然的问题，即：基于对偶函数能获得的最好下界是什么？ $max_{\lambda,\mu}\Gamma(\lambda,\mu)\\s.t.\ \mu\geq0$ 上式就是主问题的对偶问题，其中 $\mu$ 和 $\lambda$ 称为对偶变量(dual variable)。无论主问题的凸性如何，对偶问题始终是凸优化问题。
考虑对偶问题的最优值 $d^*$ ,显然有
- $d^*\leq p^*$ ,这称为“弱对偶性(weak duality)”成立
- $d^*=p*$ ,则称为“强对偶性(strong duality)”成立
  此时由对偶问题能获得主问题的最优下界

对于一般的优化问题，强对偶性通常不成立，但是若主问题是凸优化问题，式中 $f (x)$ 和 $g_i(x)$ 均为凸函数， $h_j(x)$ 为仿射函数，且其可行域中至少有一点使不等式约束严格成立，则此时强对偶性成立。

在强对偶性成立时，将拉格朗日函数分别对元变量和对偶变量求导，再同时令导数等于0，即可得到原变量与对偶变量的数值关系。
于是对偶问题解决了，主问题也就解决了。

SVM的对偶问题

SVM主问题
$f:min_{\omega,b}\frac{1}{2}{||\omega||}^2\\s.t.\ y_i(\omega^Tx_i+b)\geq1,i=1,2,...,n$
SVM的lagrange函数
$L(\omega,b,\alpha)=\frac{1}{2}{||\omega||}^2+\sum^n_{i=1}\alpha_i(1-y_i(\omega^Tx_i+b))$ 其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_n)$ 为拉格朗日算子， $\alpha\geq0$ 。
SVM恰恰满足了强对偶性
求解
- 令 $L(\omega,b,\alpha)$ 对 $\omega$ 和 $b$ 的偏导为0，得 $\tag{1}\omega=\sum^n_{i=1}\alpha_iy_ix_i$ $\tag{2}0=\sum^m_{i=1}\alpha_iy_i$
- 将(1)带入SVM的lagrange函数，可将 $L(\omega,b,\alpha)$ 中的 $\omega$ 和 $b$ 消去，在考虑(2)的约束，得到SVM的对偶问题 $\tag{3}max_{\alpha}\sum^n_{i=1}\alpha_i-\frac{1}{2}\sum^n_{i=1}\sum^n_{j=1}\alpha_i\alpha_jy_iy_jx_i^Tx_j\\s.t.\sum^n_{i=1}\alpha_iy_i=0,\alpha_i\geq0,i=1,2,...,n$

（3）式是一个二次规划问题，可使用通用的二次规划算法来求解，例如SMO算法

求解模型

解出 $\alpha$ 后，求出 $\omega$ 和 $b$ 即可得到模型 $\tag{4}f(x)=\omega^Tx+b=\sum^n_{i=1}\alpha_iy_ix_i^Tx+b$ 从对偶问题中解出的 $\alpha_i$ 是SVM的lagrange函数中的拉格朗日算子，它恰好对应着训练样本 $x_i,y_i)$ ,因为SVM标准式中还有不等式约束，因此上述过程还需满足条件，即
$\left\{ \begin{aligned} &\alpha_i\geq0\\ &y_if(x_i)-1\geq0\\ &\alpha_i(y_if(x_i)-1)=0 \end{aligned} \right.$
- 若 $\alpha=0$ ，则该样本不会在(3)中出现，也就不会对 $f (x)$ 产生任何影响
- 若 $\alpha>0$ ，则必有 $y_if(x_i)=1,所对应的样本点位于最大间隔边上,是一个支持向量$
这显示出支持向量机的一个重要性质：
训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。

Reference

[1]https://zhuanlan.zhihu.com/p/35755150

2-python实现

'''
调用scikit-learn库，一个经典的机器学习库
'''
import numpy as np
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])

from sklearn.svm import SVC

clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(X, y)
print(clf.predict([[-0.8, -1]]))

更多的官方文档里有的是，scikit-learn官方文档

鲁棒性：对于未知样本点的分类效果好，不会轻易被扰乱 ↩︎

DUT_Ming

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
《支持向量机（SVM）》攻略

SVM推导&python实现1-优缺点及用处分类技术，最好是二分类，找个超平面把样本集合分开，就像优点非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统
复制链接

扫一扫