SVM算法详解

lzk_nus

已于 2023-05-23 20:37:57 修改

阅读量3.7w

点赞数 42

分类专栏： Machine Learning 文章标签：支持向量机算法机器学习

于 2022-01-05 17:46:22 首次发布

本文链接：https://blog.csdn.net/qq_42791848/article/details/122328510

版权

Support Vector Machine

终于，我们来到了SVM。SVM是我个人感觉机器学习中最优美的算法，这次我们要来非常细致地介绍。SVM是一类有监督的分类算法，它的大致思想是：假设样本空间上有两类点，我们希望找到一个划分超平面，将这两类样本分开，而划分超平面应该选择泛化能力最好的，也就是能使得两类样本中距离它最近的样本点距离最大。

Hard Margin&Dual Problem

Hard Margin

在这里插入图片描述

如图所示，中间那条加粗的超平面就是我们所求的最优划分超平面。我们知道平面的方程可以用线性方程： $w^Tx+b=0$ 来表示， $w=(w_1,w_2,\dots,w_n)$ 表示的是平面的法矢量。现在，我们假设样本空间 $D=\{(x_i,y_i)|i\in Z^{+}\}$ 中只有两个类别的样本，类别标记分别为 $y_i=1$ 或 $y_i=-1$ 。那么对于 $x_i,y_i),y_i=1$ ，超平面得到的结果 $w^Tx_i+b\ge1$ ；反之， $w^Tx_i+b\le-1$ 。因此我们有：
$\begin{cases} w^Tx_i \ + \ b \ \ge \ 1, \ \ \ \ \ y_i=1 \\ w^Tx_i \ + \ b \ \le \ -1, \ \ \ \ \ y_i=-1\end{cases}$
某一个样本点 $x_i,\ y_i)$ 到划分超平面的距离公式为：
$\gamma \ = \ \frac{|w^Tx_i+b|}{||w||}$
考虑两类样本点中距离划分超平面最近的样本，这类样本恰好能够使得上式中的等号成立，如图：

在这里插入图片描述

我们称这类距离划分超平面最近的样本点为“支持向量”，称 $\gamma \ = \ \frac{2}{||w||}$ 为“间隔”。

之前我们说到了，我们希望这个间隔能够最大化来使得模型泛化能力最强，因此我们的任务就是：
$maximize_{w} \ \ \ \ \ \ \ \ \ \frac{2}{||w||} \\ s.t. \ \ \ \ y_i(w^Tx_i+b) \ \ge \ 1$
这个任务等价于：
$minimize_{w} \ \ \ \ \ \ \ \ \ \frac{1}{2}{||w||^2} \\ s.t \ \ \ \ \ 1 - y_i(w^Tx_i+b) \le 0$
这就变成了一个非常典型的凸优化问题。

Dual Problem

对于求条件极值，我们自然要先写出他的Lagrange乘子式：
$L(\alpha,w,b) \ = \ \frac{1}{2}||w||^2 \ - \ \sum_{i=1}^{n}{\alpha_i}{(1-y_i(w^Tx_i+b))}$
我们的任务是 $\ \ L(\alpha,w,b)$ 。
下面考虑它的dual problem：
$min_{w,b}max_{\alpha}L(\alpha,w,b) \\$
接下来求出 $L$ 对 $w, b$ 的偏导：
$\nabla_{w}L = w-\sum_{i=1}^n{\alpha_iy_ix_i}=0 \ \ \ \ \ \ \ \ \ w = \sum_{i=1}^n{\alpha_iy_ix_i} \\ \nabla_{b}L = -\sum_{i=1}^n{\alpha_iy_i} = 0 \ \ \ \ \ \ \ \ \ \ \ \sum_{i=1}^n{\alpha_iy_i}=0$
代入 $L(\alpha, w, b)$

最低0.47元/天解锁文章