机器学习-白板推导系列笔记（六）-SVM

最新推荐文章于 2022-01-27 20:52:36 发布

及时行樂_

最新推荐文章于 2022-01-27 20:52:36 发布

阅读量1k

点赞数 6

分类专栏：哔站机器学习白板推导文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41485273/article/details/111757482

版权

本文详细介绍了支持向量机（SVM）的概念，从硬间隔SVM的模型定义、优化问题的转化到模型求解，包括拉格朗日乘子法的应用和KKT条件。接着探讨了软间隔SVM，分析了合页损失函数和C参数的意义，并解释了约束优化问题的对偶关系和几何解释。

摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频：支持向量机_178min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、硬间隔SVM

（一）模型定义

假设有以下数据：

$\left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \{+1,-1\}$

SVM的主要思想是在特征空间中寻找一个最大间隔的超平面 $w^{T}x+b$ 实现数据的二分类，SVM属于判别模型。这里的间隔指的是样本点到分离超平面的距离的最小值，用函数 $m a r g i n (w, b)$ 来表达。下图中在 $w\cdot x+b=1$ 和 $w\cdot x+b=-1$ 线上的样本点就叫支持向量：
在这里插入图片描述
超平面实现将数据的正例和负例分隔开，因此有：

$\left.\begin{matrix} y_{i}=+1,w^{T}x_{i}+b>0\\ y_{i}=-1,w^{T}x_{i}+b<0 \end{matrix}\right\}y_{i}(w^{T}x_{i}+b)>0,for\; \forall i=1,2,\cdots ,N$

另外最大间隔通过以下方式来表达：

$①\;$ 首先要明确样本点到超平面的距离公式：
$distance(w,b,x_{i})=\frac{\left | w^{T}x+b\right |}{\left \| w\right \|}$
(可以参考初中知识点：点到直线距离 $d=\frac{\left | Ax+By+C\right |}{\sqrt{A^{2}+B^{2}}})$

$②\;$ 因此间隔可以表达为：
$margin(w,b)=\underset{x_{i}}{min}\; distance(w,b,x_{i})=\underset{x_{i}}{min}\frac{\left | w^{T}x_{i}+b\right |}{\left \| w\right \|},i=1,2,\cdots ,N$
$③\;$ 最大间隔可以表达为：
$\underset{w,b}{max}\; margin(w,b)=\underset{w,b}{max}\; \underset{x_{i}}{min}\frac{\left | w^{T}x_{i}+b\right |}{\left \| w\right \|}=\underset{w,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(w^{T}x_{i}+b)}{\left \| w\right \|},i=1,2,\cdots ,N$

然后求解支持向量机就可以转化为以下带约束的优化问题：

$\left\{\begin{matrix} \underset{w,b}{max}\; margin(w,b)=\underset{w,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(w^{T}x_{i}+b)}{\left \| w\right \|},i=1,2,\cdots ,N\\ s.t.\; y_{i}(w^{T}x_{i}+b)>0,i=1,2,\cdots ,N \end{matrix}\right.$

上述优化问题还可以进一步转化：

由约束： $y_{i}(w^{T}x_{i}+b)>0,i=1,2,\cdots ,N$ ，可以得出 $\exists \gamma >0$ ，使得 $\underset{x_{i}}{min}\; y_{i}(w^{T}x_{i}+b)=\gamma$
由于确定同一个超平面的 $w, b$ 可以任意放缩，所以这里的 $\gamma$ 可以约束等于 $1$ 。

则 $\underset{w,b}{max}\; margin(w,b)\\ =\underset{w,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(w^{T}x_{i}+b)}{\left \| w\right \|}\\ =\underset{w,b}{max}\frac{1}{\left \| w\right \|}\underset{=\gamma =1}{\underbrace{\underset{x_{i}}{min}\; y_{i}(w^{T}x_{i}+b)}}\\ =\underset{w,b}{max}\frac{1}{\left \| w\right \|}\\ =\underset{w,b}{min}\frac{1}{2}w^{T}w\\ i=1,2,\cdots ,N$

由此上述优化问题转化为：

$\left\{\begin{matrix} \underset{w,b}{min}\frac{1}{2}w^{T}w \\ s.t.\; y_{i}(w^{T}x_{i}+b)\geq 1,i=1,2,\cdots ,N \end{matrix}\right.$

这是一个带 $N$ 个约束的凸优化问题。

（二）优化问题的转化

上述优化问题可以使用拉格朗日乘子法来求解，构建拉格朗日函数：

$L(w,b,\lambda )=\frac{1}{2}w^{T}w+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(w^{T}x_{i}+b))\\ \lambda =\begin{pmatrix} \lambda _{1} & \lambda _{2} & \cdots & \lambda _{N} \end{pmatrix}^{T}$

然后上述优化问题就可以转换为以下优化问题：

$\left\{\begin{matrix} \underset{w,b}{min}\; \underset{\lambda }{max}L(w,b,\lambda )=\frac{1}{2}w^{T}w+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(w^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.$

我们可以简单地看一下为什么可以这么转化：

$当1-y_{i}(w^{T}x_{i}+b)>0时，由于\lambda _{i}\geq 0，所以\underset{\lambda }{max}L(w,b,\lambda )=\infty \\ 当1-y_{i}(w^{T}x_{i}+b)\leq 0时，由于\lambda _{i}\geq 0，所以\underset{\lambda }{max}L(w,b,\lambda )=\frac{1}{2}w^{T}w \\ 因此\underset{w,b}{min}\; \underset{\lambda }{max}L(w,b,\lambda )=\underset{w,b}{min}\left \{\frac{1}{2}w^{T}w,\infty \right \}=\frac{1}{2}w^{T}w$