机器学习个人笔记——（五）分类算法4、支持向量机（SVM）

最新推荐文章于 2021-08-20 20:28:07 发布

wei22134

最新推荐文章于 2021-08-20 20:28:07 发布

阅读量631

点赞数

分类专栏：机器学习笔记文章标签：机器学习支持向量机人工智能 svm

本文链接：https://blog.csdn.net/weixin_42582355/article/details/107876906

版权

机器学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

SVM

SVM概念
- 最优化
- 寻找最大间隔
对偶问题

SVM概念

SVM是一种有监督学习（已知样本的类别标签）的二分类算法，类似于逻辑回归，均为通过一条直线（超平面）将样本划分为两类。
SVM的作用是找到一条最优的直线，将样本更好地划分。

将数据集分隔开来的直线成为分隔平面，在二维平面中即为一条直线，若数据集是1024维的，那就需要1023维的对象对数据进行分隔，这个对象称为超平面

在这里插入图片描述

最优化

前提，数据是线性可分

如下图两种均为线性不可分
在这里插入图片描述
图A的数据集为线性可分，且存在无数条直线能将其分为2类，图BCD中的直线，分别就是其中的一种。

我们希望找到离直线（超平面）最近的点，确保他们离直线的距离尽可能地远。

例如，若选择C中的分隔面作为分类器，由于训练集的有限性或噪声的干扰，训练集外的样本可能更接近两个类目前的分隔界，在分类决策的时候就会出现错误，为了使分类器抗干扰能力强，即使得点到分隔面的距离（间隔）尽可能地大。

寻找最大间隔

设：
直线（超平面）的参数向量：
$\begin{aligned} \mathbf{ w^{T}} &=\begin{bmatrix}w_{1}&w_{2}&...&w_{n}\end{bmatrix} \end{aligned}$

特征向量：
$\begin{aligned} \mathbf{ x}&=\begin{bmatrix} x_{1}\\x_{2}\\...\\x_{n}\\ \end{bmatrix} \end{aligned}$
分隔超平面的形式可以写为： $y=\mathbf{w^{T}x}+b$

数据点A特征向量为：
$\begin{aligned} \mathbf{A}&=\begin{bmatrix} a_{1}\\a_{2}\\...\\a_{n}\\ \end{bmatrix} \end{aligned}$

则点A到分隔面的距离为： ${\LARGE\frac{|\mathbf{w^{T}A}+b|}{||\mathbf{w}||}}$
即：
${\LARGE =\frac{|w_{1}a_{1}+w_{2}a_{2}+...+w_{n}a_{n}+b|}{\sqrt{w_{1}^2+w_{2}^2+...+w_{n}^2}}}$
在这里插入图片描述
将类别分为+1和-1两个类，且距离最近的点函数间隔为1:
$\begin{array}{l} \left\{\begin{matrix} \mathbf{w^{T}x_{i}}+b \ge +1 ,{y_{i}=+1} \\ \mathbf{w^{T}x_{i}}+b \le -1 , {y_{i}=-1} \end{matrix}\right. \end{array}$

$y_{i}*(\mathbf{w^{T}x_{i}}+b) \ge 1$ 恒成立

所以 ${\large d=\frac{y_{i}*(\mathbf{w^{T}x_{i}}+b)}{||\mathbf{w}||}}$

进行代换后，离超平面最近的点，满足
$1、{\large d=\frac{1}{||\mathbf{w}||}}$
$2、y_{i}*(\mathbf{w^{T}x_{i}}+b) = 1$
该点到直线的距离可以转换为
${\large d=\frac{y_{i}*(\mathbf{w^{T}x}+b)}{||\mathbf{w}||}}$

因此SVM的目标为
$\max \frac{\min y_{i}*(\mathbf{w^{T}x_{i}}+b)}{||\mathbf{w}||}$
求解满足以上公式的 $\mathbf {w}$ 向量和 $b$ 参数

因为 $\min y_{i}*(\mathbf{w^{T}x}+b)=1$
所以目标为：
$\begin{aligned} &{\large \max \frac{1}{||\mathbf{w}||}}\\ \\ &{\large s.t:y_{i}*(\mathbf{w^{T}x_{i}}+b) \ge 1} \end{aligned}$

为了最大化间隔，仅需最小化 $||\mathbf{w}||$ ，即
$\begin{aligned} &{\large \min||\mathbf{w}||}\\ \\ &{\large s.t:y_{i}*(\mathbf{w^{T}x_{i}}+b) \ge 1} \end{aligned}$
同时可将 $\min||\mathbf{w}||$ 写为 $\min \frac{1}{2} ||\mathbf{w}||^{2}$
转换如下，变为一个二次优化问题
$\begin{aligned} &{\large \min \frac{1}{2} ||\mathbf{w}||^{2}}\\ \\ &{\large s.t. \qquad y_{i}*(\mathbf{w^{T}x_{i}}+b) \ge 1} \end{aligned}$

对偶问题

对于优化问题
$\begin{aligned} &{\large \min \qquad\frac{1}{2} ||\mathbf{w}||^{2}}\\ \\ &{\large s.t. \qquad y_{i}*(\mathbf{w^{T}x}+b) \ge 1} \end{aligned}$
可通过拉格朗日乘子法可得到其"对偶问题"

前提：只有当目标函数为凸函数时，才保证求得的是最优解，如下图

拉格朗日乘子法（等式约束）

拉格朗日乘子法是求解约束优化问题的重要方法，当约束条件为等式约束时，使用拉格朗日乘子法
形式如下，目标函数为 $f (x)$ ， $m$ 个约束约束条件为 $h_{i}(x)$
$\begin{aligned} \min_{x} \qquad &f(x)\\ s.t. \qquad &h_{i}(x) = 0 ;(i=1,2,...,m) \end{aligned}$
使用拉格朗日乘子法如下：

构建拉格朗日函数
$\begin{aligned} &L(x,\alpha_{1},\alpha_{2},...,\alpha_{m})=f(x)+\alpha_{1}h_{1}(x)+\alpha_{2}h_{2}(x)+...+\alpha_{m}h_{m}(x)\\\\ =>&L(x,\alpha)=f(x)+\sum_{i=1}^{m} \alpha_{i}h_{i}(x) \end{aligned}$
对 $x,\alpha$ 求偏导 $= 0$
$\begin{cases} & \nabla_{x}L(x,\alpha )=0\\ & \nabla_{\alpha }L(x,\alpha )=0 \end{cases}$
令导数为 0 ，求得 $、\alpha$ 的值后，将 $x$ 带入 $f (x)$ 即为在约束条件 $h_{i}(x)$ 下的可行解。

例：
目标是求 $f(x,y)=x^2∗y$ 的最大值
同时约束条件为 $x^2+y^2=1$
$\begin{aligned} \max_{x}\qquad & f(x)=x^2∗y\\ s.t. \qquad &h(x) =x^2+y^2-1=0 \end{aligned}$
4. 构造新目标函数
$L(x,y,\alpha)=x^2∗y+\alpha *(x^2+y^2-1)$
5. 分别求偏导
$\begin{cases} &对x求偏导，\frac{\partial L(x,y,\alpha )}{\partial x} =2xy+2\alpha x=0\\ &对y求偏导，\frac{\partial L(x,y,\alpha )}{\partial y} =x^2+2\alpha y=0\\ &对\alpha 求偏导，\frac{\partial L(x,y,\alpha )}{\partial \alpha } =x^{2}+y^{2}-1=0 \end{cases}$
6. 解出令偏导等于 $0$ ，得到可行解

拉格朗日乘子法（不等式约束）与KKT条件

对于等式约束，目标函数为 $f (x)$ ， $1$ 个约束约束条件为 $h_{i}(x)$
$\begin{aligned} \min_{x} \qquad &f(x)\\ s.t. \qquad &h(x) = 0 \end{aligned}$
将等式约束 $h (x) = 0$ 推广为不等式 $\le 0$ ：
$\begin{aligned} \min_{x} \qquad&f(x)\\ s.t. \qquad &h(x) \le 0 \end{aligned}$

对应构造的函数为： $L(x,\alpha)=f(x)+\alpha h(x)$

由约束不等式 $\le 0$ ，我们定义可行域：
$K=\left\{x \mathbf{|}h(x)\le 0\right\}$

假设 $x^*$ 为满足约束条件的最佳解，有两种情况讨论：

$h(x^*) < 0$ ，最佳解位于 $K$ 的内部
$h(x^*)=0$ ，最佳解位于 $K$ 的边界

这两种情况的最佳解具有不同的必要条件。

1）内部解：此时，由于目标函数为凸函数（前提条件），约束条件 $h (x)$ 将不起作用，此时约束优化将转换为无约束优化问题， $\alpha=0$

例如如下图，
$f (x)$ 是一个二次函数，：可行域为 $K=[x_{1}, x_{2}]$ （约束条件决定 $K$ ），最优解 $x^*$ 落在了 $K$ 的内部，此时最佳解就是最优解

对于构造函数 $L(x,\alpha)=f(x)+\alpha h(x)$
约束条件将不起作用，即求 $\min f(x)$ 时，只需f(x)求导=0，无需担心区间的限制，此时 $\alpha=0$
即： $\nabla_{x}L(x,\alpha )=0，\alpha=0$ ，

2）边界解：此时约束条件有效，约束不等式变成等式 $h (x) = 0$ ，这与等式约束求解方法相同。
对于等式约束， $L(x,\alpha)=f(x)+\alpha h(x)$

分别求偏导
$\begin{cases} &对x求偏导，\nabla_{x}L(x,\alpha )=0\\ &对\alpha 求偏导，\nabla_{\alpha}L(x,\alpha )=0 \end{cases}$

上述问题中，目标函数 $f$ 和约束等式函数 $h$ 只有一个x变量，只对x求偏导，
推广为一般形式，目标函数有多个变量， $x_{1},x_{2},...,x_{n}$ ,分别对 $n$ 个变量求偏导，相当于令 $\nabla L=0$ （ $L$ 的梯度=0），即转化为
$\begin{cases} &\nabla_{x} L=\nabla f+\alpha \nabla h=0\\ &对\alpha 求偏导，\nabla_{\alpha}L= h(x)=0 \end{cases}$
为了方便此处假设 $h$ 只有1个变量，即 $h = h (x)$ ，此时 $\nabla h=h^{'}(x)$

根据等式约束优化的求解过程，最优解满足以下条件
$\begin{cases} &\nabla_{x} L=\nabla f+\alpha \nabla h=0\\ &\nabla_{\alpha}L= h(x)=0 \end{cases}$
=> $\begin{cases} &\nabla f+\alpha \nabla h=0\\ & h(x)=0 \end{cases}$
则:
$\begin{cases} &\nabla f=-\alpha \nabla h\\ & h(x)=0 \end{cases}$

梯度：指的是函数增长最快的方向。所以：
$\nabla_{x} f$ 是目标函数 $f$ 在某一点处增长最快的方向
$\nabla_{x} h$ 是约束条件函数 $h (x)$ 某一点处增长最快的方向

因为 $h(x)\le 0$
所以 $h (x)$ 的梯度，方向一定指向区间 $h (x) > 0$ 的方向，
即 $h (x)$ 的梯度，一定指向区间（可行域 $K$ ）的外部

用二次函数为例：
$f (x)$ 是一个二次函数，：可行域为 $K=[x_{1}, x_{2}]$ （约束条件决定 $K$ ），最优解 $x^*$ 落在了 $K$ 的外部，目标函数在 $x_{2}$ 点处的梯度就是f(x)在 $x_{2}$ 导数的方向

在上述条件中，在约束条件为h(x)，目标函数的最佳解为 $x_{2}$ ，即当 $x=x_{2}$ 时取最小值。
可以看到，只要最佳解是边界解，驻点一定在可行域 $K$ 的外部，且最佳解的点，所对应的的梯度方向一定指向区间内部。
即 $f$ 的梯度，方向一定指向可行域 $K$ 的内部

综上梯度方向的判断。

因为：

$h (x)$ 的梯度： $\nabla_{x} h$ ，一定指向区间（可行域 $K$ ）的外部
所以 $-\nabla_{x} h$ ，则指向相反的方向，即可行域 $K$ 的内部

而

$f$ 的梯度： $\nabla f$ ，一定指向可行域 $K$ 的内部

又因为：
$\nabla f=-\alpha \nabla h$

所以当 $\alpha \ge 0$ 时
才能保证等式成立。

$\alpha \ge 0$ 成为对偶可行性

因此，综上所进行的推导，
1）内部解条件：
$\begin{cases} \alpha &= 0 \\ h(x) &\le 0 \end{cases}$

2）边界解条件
$\begin{cases} \alpha &\ge 0 \\ h(x) &=0\\ \nabla f+\alpha \nabla h&=0 \end{cases}$
无论是对内部解条件，还是边界解条件，可得出
$\alpha h(x)=0（恒成立）$

因此得到KKT条件，即不等式约束，（对于最小化目标函数）最佳解的必要条件：
$\begin{aligned} \nabla_{x}L&= \nabla f+\alpha \nabla h=0\\ \alpha h(x) &= 0 \\ h(x) &\le 0\\ \alpha &\ge 0 \end{aligned}$

如果要最大化目标函数，即 $\max f$ ，且不等式约束为 $\le 0$ ，那么需要 $\alpha \le 0$

上面结果可推广至多个约束等式与约束不等式的情况：
$\begin{aligned} \min_{x} \qquad&f(x)\\ s.t. \qquad &g_{j}(x)=0 ;(j=1,2,3...,n, 共n个约束条件) \\&h_{i}(x) \le 0 ;(i=1,2,3...,m, 共m个约束条件) \end{aligned}$
此时构造的拉格朗日函数为
$\begin{aligned} L(x,\left \{\lambda_{j}\right \},\left \{\alpha_{i}\right \})&= f(x)+\lambda_{1}g_{1}(x)+\lambda_{2}g_{2}(x)+...+\lambda_{n}g_{n}(x)+\alpha_{1}h_{1}(x)+\alpha_{2}h_{2}(x)+...+\alpha_{m}h_{m}(x)\\ &=f(x)+\sum_{j= 1}^{n} \lambda_{j}g_{j}(x)+\sum_{i= 1}^{m} \alpha_{i}h_{i}(x) \end{aligned}$

所满足的KKT条件包括：
$\begin{aligned} \nabla_{x}L &= \nabla f+\nabla g+ \nabla h=0\\\\ g_{j}(x) &=0 ;(j=1,2,3...,n)\\\\ h_{i}(x) &\le 0 \\ \alpha_{i} &\ge 0\\ \alpha_{i} h_{i}(x)&=0;(i=1,2,3...,m) \end{aligned}$

SVM中，原问题的对偶问题

SVM的优化问题为：
$\begin{aligned} &{\large \min_{\mathbf{w}} \qquad\frac{1}{2} ||\mathbf{w}||^{2}}\\ \\ &{\large s.t. \qquad y_{i}*(\mathbf{w^{T}x_{i}}+b) \ge 1} \end{aligned}$

转化为：
$\begin{aligned} &{\large \min_{\mathbf{w}} \qquad f(\mathbf{w} )=\frac{1}{2} ||\mathbf{w}||^{2}}=\frac{1}{2}(w_{1}^2+w_{1}^2+...+w_{n}^2)=\frac{1}{2}\mathbf{w}^T\mathbf{w}\\ \\ &{\large s.t. \qquad h(\mathbf{w})=1-y_{i}*(\mathbf{w^{T}x_{i}}+b) \le 0} \end{aligned}$
最终
$\begin{aligned} &{\large \min_{\mathbf{w}} \qquad \frac{1}{2}\mathbf{w}^T\mathbf{w} }\\ \\ &{\large s.t. \qquad h(\mathbf{w})=1-y_{i}*(\mathbf{w^{T}x_{i}}+b) \le 0;(i=1,2,...,,m,m为样本点个数,表示m个不等式约束)} \end{aligned}$

这样就能转化为一般形式，
构造的拉格朗日函数形如：
$\begin{aligned} L(\mathbf{w} ,b,\left \{\alpha_{i}\right \})&= f(\mathbf{w} )+\alpha_{1}h_{1}(\mathbf{w})+\alpha_{2}h_{2}(\mathbf{w})+...+\alpha_{m}h_{m}(\mathbf{w})\\ &=f(\mathbf{w} )+\sum_{i= 1}^{m} \alpha_{i}h_{i}(\mathbf{w})\\ &=\frac{1}{2}\mathbf{w}^T\mathbf{w}+\sum_{i= 1}^{m} \alpha_{i}(1-y_{i}*(\mathbf{w^{T}x_{i}}+b)) \end{aligned}$

所满足的KKT条件包括：
$\begin{aligned} \nabla_{\mathbf{w}}L &=\nabla_{\mathbf{w}} f+ \nabla_{\mathbf{w}} h_{1}+\nabla_{\mathbf{w}} h_{2}+...+ \nabla_{\mathbf{w}} h_{m}=0\\ \nabla_{b}L &= \nabla_{b} f+\nabla_{b} h_{1}+\nabla_{b} h_{2}+...+ \nabla_{b} h_{m}=0\\ \\ h_{i}(\mathbf{w}) &\le 0 \\ \alpha_{i} &\ge 0\\ \alpha_{i} h_{i}(\mathbf{w})&=0;(i=1,2,3...,m) \end{aligned}$

即:
$\begin{aligned} \nabla_{\mathbf{w}}L =0\\ \nabla_{b}L =0\\ \\ 1-y_{i}*(\mathbf{w^{T}x_{i}}+b) &\le 0 \\ \alpha_{i} &\ge 0\\ \alpha_{i}(1-y_{i}*(\mathbf{w^{T}x_{i}}+b) )&=0;(i=1,2,3...,m) \end{aligned}$

为了得到其对偶问题的具体形式，
因为，
$\begin{aligned} \nabla_{\mathbf{w}}L =0 \qquad（1）\\ \nabla_{b}L =0 \qquad（2）\\ \end{aligned}$
即令 $L(\mathbf{w} ,b,\left \{\alpha_{i}\right \})$ 对w和b偏导=0

方程(1)计算可得
$\large \mathbf{w}=\sum_{i= 1}^{m} \alpha_{i}y_{i}\mathbf{x_{i}}$
方程(2)计算可得
$\large \sum_{i= 1}^{m} \alpha_{i}y_{i}=0$

将以上两个等式带入拉格朗日目标函数，得:
$\begin{aligned} L(\mathbf{w} ,b,\left \{\alpha_{i}\right \}) &=\frac{1}{2}\mathbf{w}^T\mathbf{w}+\sum_{i= 1}^{m} \alpha_{i}(1-y_{i}*(\mathbf{w^{T}x_{i}}+b))\\ &=-\frac{1}{2}\sum_{i=1}^{m}\sum_{i=1}^{m}\alpha_{i} \alpha_{j} y_{i}y_{j}\left \langle \mathbf{x_{i}},\mathbf{x_{j}} \right \rangle +\sum_{i=1}^{m}\alpha_{i} \end{aligned}$

目标为求L的最小值时，w,b的取值，即:
$\begin{aligned} &\min_{\mathbf{w},b} L(\mathbf{w} ,b,\left \{\alpha_{i}\right \})= -\frac{1}{2}\sum_{i=1}^{m}\sum_{i=1}^{m}\alpha_{i} \alpha_{j} y_{i}y_{j}\left \langle \mathbf{x_{i}},\mathbf{x_{j}} \right \rangle +\sum_{i=1}^{m}\alpha_{i} \\\\&{\large s.t. \qquad \alpha_{i} \ge 0}\qquad and \qquad{\large \sum_{i= 1}^{m} \alpha_{i}y_{i}=0}，(i=1,2,...,m) \end{aligned}$

此时该问题满足以下条件：

优化问题是凸优化问题
满足KKT条件

可以转化为对偶问题,（对w,b的极小min问题转换为对于α 的极大问题max）
$\begin{aligned} &\max_{\mathbf{\alpha}} L(\mathbf{w} ,b,\left \{\alpha_{i}\right \})= -\frac{1}{2}\sum_{i=1}^{m}\sum_{i=1}^{m}\alpha_{i} \alpha_{j} y_{i}y_{j}\left \langle \mathbf{x_{i}},\mathbf{x_{j}} \right \rangle +\sum_{i=1}^{m}\alpha_{i} \\\\&{\large s.t. \qquad \alpha_{i} \ge 0}\qquad and \qquad{\large \sum_{i= 1}^{m} \alpha_{i}y_{i}=0}，(i=1,2,...,m) \end{aligned}$

添加负号,（max转换为min）
$\begin{aligned} &\min_{\mathbf{\alpha}} L(\mathbf{w} ,b,\left \{\alpha_{i}\right \})= \frac{1}{2}\sum_{i=1}^{m}\sum_{i=1}^{m}\alpha_{i} \alpha_{j} y_{i}y_{j}\left \langle \mathbf{x_{i}},\mathbf{x_{j}} \right \rangle -\sum_{i=1}^{m}\alpha_{i} \\\\&{\large s.t. \qquad \alpha_{i} \ge 0}\qquad and \qquad{\large \sum_{i= 1}^{m} \alpha_{i}y_{i}=0}，(i=1,2,...,m)\\ \end{aligned}$

因为，

$\large \mathbf{w}=\sum_{i= 1}^{m} \alpha_{i}y_{i}\mathbf{x_{i}}$
$\large \sum_{i= 1}^{m} \alpha_{i}y_{i}=0$
$\large\alpha_{i}(1-y_{i}*(\mathbf{w^{T}x_{i}}+b) )=0$
可知在m个α中，至少存在一个 $α_{j}>0$ （反证法可以证明，若全为0，则 $\mathbf {w}=\mathbf {0}$ ，矛盾），对该 $α_{j}$ 有
$y_{j}(\mathbf {w^{*}x_{i}}+b)-1=0$

$\mathbf {x_{i}}，y_{i}$ 均为已知，此时只需求 $α$ 即可，带入上式中解出
$\large \mathbf{w^{*}}=\sum_{i= 1}^{m} \alpha_{i}y_{i}\mathbf{x_{i}}$
$\large b^{*}=y_{j}-\sum_{i=1}^{m}\alpha_{i} y_{i}\left \langle \mathbf{x_{i}},\mathbf{x_{j}} \right \rangle$