机器学习：支持向量机（SVM）

最新推荐文章于 2023-05-27 19:18:20 发布

阳阳yyx

最新推荐文章于 2023-05-27 19:18:20 发布

阅读量793

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qq_29317617/article/details/85943338

版权

机器学习算法专栏收录该内容

7 篇文章 23 订阅

订阅专栏

机器学习算法—支持向量机（support vector machine，SVM）

线性SVM

给定训练样本集 $D=\{(x_1,y_1),(x_2,y_2),\cdot\cdot\cdot,(x_m,y_m)\}，y\in\{-1,+1\}$ ，分类学习的基本思想就是基于训练集D在样本空间寻找一个划分超平面，将不同类别的样本区别开。因此重点就是如何寻找最优的划分超平面。

Alt
在样本空间中，划分超平面可通过如下线性方程来描述： $\omega^Tx+b=0$ 样本空间中任一点 $x$ 到超平面 $(\omega,b)$ 的距离 $\gamma$ 可写成： $\gamma=\frac{|\omega^Tx+b|} {||\omega||}$ 假设超平面 $(\omega,b)$ 能够对样本 $x_i,y_i)$ 正确分类，那么有 $\begin{cases} \omega^Tx_i+b>0，y_i=+1 \\ \omega^Tx_i+b<0，y_i=-1\end{cases}$ 为了增强分类器的鲁棒性，我们令 $\begin{cases} \omega^Tx_i+b\geq+1，y_i=+1 \\ \omega^Tx_i+b\leq-1，y_i=-1\end{cases}$ 使得上式等号成立的样例称之为“支持向量(support vector)”。
两个异类支持向量到超平面的距离之和称为间隔(margin) $\gamma$ ： $\gamma=\frac{2} {||\omega||}$
Alt
间隔最大化
支持向量机的思想思想就是寻找一超平面，使得间隔最大化。因此可获得支持向量机的基本型为：
$\begin{array}{} \underset {\omega,b} {max} & \frac{2}{||\omega||} \\ \text{s.t.}& y_i( \omega^Tx_i+b)\geq1 \\ &i=1,2,...m. \end{array}$ 引入二范数，上述优化问题等价于
$\begin{array}{} \underset {\omega,b} {min} & \frac{1}{2} ||\omega||^2 \\ \text{s.t.}& y_i( \omega^Tx_i+b)\geq1 \\ &i=1,2,...m. \end{array}$

对偶SVM

拉格朗日函数和对偶形式

拉格朗日函数

定义：
对于优化问题一 $\begin{array}{} \underset {u} {min} & f(u) \\ \text{s.t.}& g_i(u)\leq0, \ i=1,2,...,m \\ &h_j(u)=0, \ j=1,2,...,n \end{array}$
定义其拉格朗日函数为： $L(u,\alpha,\beta):=f(u)+\sum_{i=1}^m\alpha_ig_i(u)+\sum_{j=1}^n\beta_jh_j(u)，\text{其中}\alpha_i \geq0$ 对于优化问题一描述的优化问题等价于
$\begin{array}{} \underset {u} {min} \underset {\alpha,\beta} {max}& L(u,\alpha,\beta) \\ \text{s.t.}& \alpha_i \geq0, \ i=1,2,...,m \\ \end{array}$ 证明过程：
ALT

KKT条件

利用拉格朗日函数构造等价的优化问题必须满足KKT条件：

主问题可行： $g_i(u)\leq0,\ h_j(u)=0$
对偶问题可行： $\alpha_i \geq 0$
互补松弛（complementary slackness）： $\alpha_ig_i(u) = 0$

$\alpha_ig_i(u) = 0$ 是在主问题和对偶问题都可行的条件下的最大值。

对偶问题

定义优化问题一的对偶问题为：
$\begin{array}{} \underset {\alpha,\beta} {max} \underset {u} {min} & L(u,\alpha,\beta) \\ \text{s.t.}& \alpha_i \geq0, \ i=1,2,...,m \\ \end{array}$ 对偶问题是主问题的下界，即： $\underset {\alpha,\beta} {max} \underset {u} {min} \leq \underset {u} {min} \underset {\alpha,\beta} {max}$

线性支持向量机对偶型

支持向量机基本型：
$\begin{array}{} \underset {\omega,b} {min} & \frac{1}{2} ||\omega||^2 \\ \text{s.t.}& y_i( \omega^Tx_i+b)\geq1 \\ &i=1,2,...m. \end{array}$ 这是一个有约束的二次规划问题，引入拉格朗日乘子 $\alpha$ ，当 $\alpha\geq0$ 时，可构造拉格朗日函数 $L(\omega,b,\alpha)$ : $L(\omega,b,\alpha)=\frac{1} {2} ||\omega||^2+\sum_{i=1}^m \alpha_i(1-y_i( \omega^Tx_i+b))$ 分别对 $\omega,b,\alpha$ 求导等于0可得： $\frac{\partial L}{\partial \omega}=0 \implies \omega=\sum_{i=1}^m\alpha_iy_ix_i$ $\frac{\partial L}{\partial b}=0\implies \sum_{i=1}^m\alpha_iy_i=0$ 将其代入到上式可得：
$\begin{array}{} \underset {\alpha} {min} & \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j -\sum_{i=1}^m\alpha_i\\ \text{s.t.}& \alpha_i\geq 0 ,\quad i=1,2,...m. \end{array}$ 上式即为线性支持向量机对偶型，等价于找到一组合适的参数 $\alpha$ 使得上式成立。
线性支持向量机对偶型中描述的优化问题属于二次规划问题, 包括m个优化变量, m+2项约束。
线性支持向量机的KKT条件如下：

主问题可行： $1-y_i( \omega^Tx_i+b)\leq0$ ;
对偶问题可行： $\alpha_i\geq 0$ ；
互补松弛： $\alpha_i(1-y_i( \omega^Tx_i+b))=0$

支持向量

满足 $1-y_i( \omega^Tx_i+b)=0$ ，即 $y_i( \omega^Tx_i+b)=1$ 的样本称为支持向量；
也可以说，对偶变量 $\alpha_i>0$ 对应的样本称为支持向量。
引理：线性支持向量机中, 支持向量是距离划分超平面最近的样本, 落在最大间隔边界上。
定理：支持向量机的参数 $(\omega,b)$ 仅由支持向量决定，与其他样本无关。证明：
ALT

线性支持向量机的假设函数

$h(x)=\text{sign}(\sum_{i\in SV}\alpha_iy_ix_i^Tx+b)$

非线性SVM

对于非线性可分问题，在原始的特征空间 $R^d$ 不是线性可分的，支持向量机希望通过一个映射： $\phi:\R^d\to \R^{\tilde{d}}$ ，使得样本在空间 $\R^{\tilde{d}}$ 是线性可分的。

核函数

定义核函数： $k(x_i,x_j)=\phi(x_i)^T\phi(x_j)$
支持向量机的基本型和对偶型相应的变为：
ALT
常用核函数：
ALT
通常，当特征维数d超过样本数m时(文本分类问题通常是这种情况)，使用线性核；当特征维数d比较小，样本数m中等时，使用RBF核; 当特征维数d比较小；样本数m特别大时，支持向量机性能通常不如深度神经网络。

软间隔SVM

不管直接在原特征空间, 还是在映射的高维空间,我们都假设样本是线性可分的. 虽然理论上我们总能找到一个高维映射使数据线性可分, 但在实际任务中, 寻找到这样一个合适的核函数通常很难. 此外, 由于数据中通常有噪声存在, 一味追求数据线性可分可能会使模型陷入过拟合的泥沼. 因此, 我们放宽对样本的要求, 即允许有少量样本分类错误.

软间隔支持向量机基本型

$\begin{array}{} \underset {\omega,b} {min} & \frac{1}{2} ||\omega||^2+C\sum \text{cost}(y_i \neq \text{sign}(w^T\phi(x_i)+b))\\ \text{s.t.}& y_i( \omega^Tx_i+b)\geq1 ,\quad \text{if}\ y_i = \text{sign}(w^T\phi(x_i)+b) \end{array}$ 其中，cost()是代价函数，C是个可调节参数用于权衡优化间隔和少量分类错误样本这两个目标，当C较大时，我们希望更多的样本满足大间隔约束；当C较小时，我们允许有一些样本不满足大间隔约束。
引入松弛变量 $\xi_i$ 用于度量样本违背约束的程度。当样本违背约束的程度越大，松弛变量值越大，即：
ALT
软间隔支持向量机基本型：
ALT

软间隔支持向量机对偶型

$\begin{array}{} \underset {\alpha} {min} & \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j) -\sum_{i=1}^m\alpha_i\\ \text{s.t.}& \sum_{i=1}^m\alpha_iy_i=0 \\ &\quad \quad\quad\quad \quad0 \leq \alpha_i\leq C ,\quad i=1,2,...m. \end{array}$ 证明：
ALT