SVM算法的总结--从原理理解SVM算法

最新推荐文章于 2024-08-09 17:50:54 发布

苏何月下追韩信丶

最新推荐文章于 2024-08-09 17:50:54 发布

阅读量1k

点赞数 1

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/u010995990/article/details/107770540

版权

本文深入探讨支持向量机（SVM）算法，从线性分类开始，介绍对偶问题、拉格朗日对偶、KKT条件，接着讨论非线性支持向量机和核函数的引入。通过拉格朗日乘子法转换为对偶问题，并解释为什么选择对偶问题求解。进一步讲解软间隔和松弛变量在处理噪声和误分类中的作用，以及SMO算法。最后，解释了Hinge Loss在SVM中的作用及其优势。

摘要由CSDN通过智能技术生成

SVM算法总结

本文是看了几个博客后，写的总结笔记。

SVM由线性分类开始

给定一个训练样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_m)\}, y \in \{-1,1\}$ .
线性分类器基于训练样本 $D$ 在二维空间中找到一个超平面来分开二类样本，显然这样的超平面会有很多。
在这里插入图片描述

我们可以直观的看到，这更红色线代表的超平面抗扰动性最好。这个超平面离直线两边的数据的间隔最大，对训练集的数据的局限性或噪声有最大的容忍能力。

在这里，这个超平面可以用函数 $f(x)=w^Tx+b$ 来表示。当 $f (x)$ 等于0的时候， $x$ 便是位于超平面上的点，而 $f (x)$ 大于0的点对应 $y = 1$ 的类别点， $f (x)$ 小于0的点对应 $y = - 1$ 的类别点。

为了计算的方便，我们不妨令:
$\begin{cases} w^Tx_i + b \geq 1, \qquad &y_i =+1; \\ w^Tx_i + b \leq -1, \qquad &y_i =-1; \end{cases}$

接下来，我们可以计算平面外的一个点到平面的距离，假设 $x^{'}$ 是平面 $w^Tx+b=0$ 上的一个点， $x$ 是平面外的一个点， $w$ 是平面的法向量，那么点 $x$ 到平面的距离就是点 $x$ 与平面上的任意一点的连线，在法向量 $w$ 上的投影的长度：
$|(x-x')\cos(\theta)| = | ||x-x'||\cdot \frac{(x-x')w}{||x-x'||\cdot ||w||}| = \frac{1}{||w||}|w^Tx - w^Tx'|$

其中，点 $x^{'}$ 在平面上，所以可以得到 $w^Tx' +b =0$ ，点 $x$ 是正类中距离平面最近的点，即满足 $w^Tx+b=1$ ,代入上式可得：
$d=\frac{1}{||w||}1-b-(-b) = \frac{1}{||w||}$
这只是正类中距离超平面的最短距离，在负类中，同样存在着一个最短距离，所以最后的间隔就是：
$d=\frac{2}{||w||}$

至此，我们求到了间隔，SVM的思想就是使得间隔最大化，也就是：
$\begin{aligned} &max_{w,b} \frac{2}{||w||} \\ &s.t.y \quad y_i(w^Tx_i +b) \geq 1 \quad(i=1,2,...,m) \end{aligned}$
显然最大化 $\frac{2}{||w||}$ ，也就是最小化 $∣ ∣ w ∣ ∣$ ，为了计算方便，可以将上式转换我：
$\begin{aligned} &min_{w,b} \frac{1}{2}||w||^2,\\ &s.t.y \quad y_i(w^Tx_i +b) \geq 1 \quad (i=1,2,...,m) \end{aligned}$
这也就是支持向量机的基本型。

对偶问题

我们已经得到了支持向量机的基本形式了：
$\begin{aligned} &min_{w,b} \frac{1}{2}||w||^2,\\ &s.t.y \quad y_i(w^Tx_i +b) \geq 1 \quad (i=1,2,...,m) \end{aligned}$
这个公式其实就是一个凸二次规划问题.

目标函数和约束条件都是变量的线性函数，叫做线性规划问题。
目标函数为变量的二次函数，约束条件为变量的线性函数，叫做二次规划问题。
目标函数和约束条件都为非线性函数，叫做非线性规划问题。
凸优化： $\in R^n$ 为一凸集， $\rightarrow R$ 为一凸函数，凸优化就是要找出一点 $x^* \in X$ ，使得任意 $\in X$ ，都满足 $f(x^*) \leq f(x)$ 。可以想象成给我一个凸函数，我要去找到最低点。

我们可以对上式使用拉格朗日乘子法，得到它的对偶问题。

这就是拉格朗日对偶性，也就是通过使用拉格朗日乘子法，把约束条件写入目标函数中。

具体的拉格朗日函数为：
$L(w,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m \alpha_i(1-y_i(w^Tx_i + b))$

其中 $\alpha_i \geq 0$ ，这样设置 $\alpha_i$ 的原因是因为我们的目标函数是不等式约束，那么要想解这样的二次规划问题，我们选用KKT条件，而KKT条件的一个约束之一就是 $\alpha_i \geq 0$ ，最终我们希望能够通过KKT条件产生原问题的对偶问题。
那么我们现在的目标就是最小化 $L(w,b,\alpha)$ 。

在这之前，我们先介绍以下拉格朗日对偶以及KKT条件。

拉格朗日对偶以及KKT

拉格朗日等式约束：
$\begin{aligned} max \quad &f(x) \\ s.t.\quad &g(x) = 0 \\ \dArr \\ L(x,\lambda) &= f(x) + \lambda g(x) \\ \dArr \\ 求导：& \begin{cases} \frac{\partial L}{\partial x} = 0\\ g(x) = 0 \end{cases} \end{aligned}$

所以对于等式约束 $g (x) = 0$ 的具体处理方法就是：给约束乘以一个系数加到原命题上，然后求导求出结果。

拉格朗日不等式约束：
$\begin{aligned} max \quad &f(x) \\ s.t. \quad &g(x) \geq 0 \\ \dArr \\ L(x,\lambda) &=f(x) + \lambda g(x) \\ \dArr \\ 分两种情况：\begin{cases} \frac{\partial L}{\partial x} = 0\\ g(x) = 0\\ \lambda > 0 \\ \end{cases} 和\begin{cases} \frac{\partial L}{\partial x} = 0 \\ g(x) > 0\\ \lambda = 0 \\ \end{cases} ,&合并两种情况\rArr \begin{cases} \frac{\partial L}{\partial x} = 0\\ g(x) \geq 0 \\ \lambda \geq 0 \\ \lambda g(x) = 0 \\ \end{cases} \end{aligned}$
这个就是不等式约束的情况。

拉格朗日同时出现等式和不等式约束：
$\begin{aligned} max \quad &f(x) \\ s.t. \quad &\begin{cases} h_i(x)=0\\ g_j(x) \geq 0 \\ \end{cases} \\ \dArr \\ L(x,\lambda) &= f(x) + \sum_i \lambda_ih_i(x) + \sum_j \mu_j g(x) \\ 需要满足的条件为（也就是KKT条件）：&\begin{cases} \frac{\partial L}{\partial x} = 0\\ h_i(x) = 0 \\ g_j(x) \geq 0 \\ \mu_j \geq 0 \\ \mu_j g_j(x) = 0\\ \end{cases} \end{aligned}$