06. 支持向量机_支持向量机算法输入什么-CSDN博客

本文链接：https://blog.csdn.net/CCjiahao/article/details/110721443

支持向量机（SVM）是一种寻找超平面以最大化数据点与决策边界距离的算法。当数据线性不可分时，SVM通过引入软间隔和核函数来处理。软间隔允许噪声点存在，核函数则通过映射到高维空间实现线性可分。文章详细介绍了SVM的模型定义、模型推导，包括硬间隔、软间隔的概念，以及序列最小最优化（SMO）算法的应用。

摘要由CSDN通过智能技术生成

算法思路

支持向量机算法跟感知机类似，都是找到一个超平面将数据分割开来。
但是，我们知道，加入数据线性可分的情况下，一般分隔数据的超平面是无线个，那么哪一个超平面是最好的呢？
感知机算法对这个不做要求，而支持向量机要求寻找的超平面距离数据点尽可能的远，这就是支持向量机的主要思想。
那如果现在如果数据不是线性可分呢？
这里有两个策略：其一，我们可以允许支持向量机存在噪声点；其二，我们将空间扩展到高维，使其线性可分，这个便成为核函数。

模型定义

输入： $X=\{x^{(1)}, x^{(2)}, \dots, x^{(K)}\}$ , $y=\{y^{(1)}, y^{(2)}, \dots, y^{(K)}\}$ 。其中， $x^{(i)}$ 代表数据的第 $i$ 个样本， $x_j$ 代表数据的第 $j$ 个维度， $x^{(i)}\in \mathbf{R}^D$ ， $y^{(i)}\in\{-1,1\}$ ;
模型： $\hat y=sign(w^Tx+b)$

模型推导

硬间隔

核心思想就是数据点距离决策边界尽可能的大，即：
$\begin{cases} \max_{w,b} \min_i \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left\|w\right\|}\\ s.t.\ y^{(i)}(w^Tx^{(i)}+b) \ge 0 \end{cases}$
其中，限制条件是分类正确的情况，毕竟我们的模型要求正确分类。
由于我们关心的是 $w, b$ 的方向，所以我们可以令 $min_i y^{(i)}(w^Tx^{(i)}+b)=1$ ，所以原式子化简为：
$\begin{cases} \max_{w,b}\frac{1}{\left\|w\right\|} \to\min_{w,b}\frac{1}{2}w^Tw\\ s.t.\ y^{(i)}(w^Tx^{(i)}+b) \ge 1 \end{cases}$
上式中的 $\frac12$ 常数，以及 $\left\|w\right\|^2=w^Tw$ 均不影响结果。
采用拉格朗日乘子法，构造式子如下：
$\begin{cases} \min_{w,b}\max_\lambda L(w,b,\lambda) = \frac12 w^Tw+\sum_{i=1}^K \lambda_i(1-y^{(i)}(w^Tx^{(i)}+b))\\ s.t. \lambda_i \ge 0 \end{cases}$
由于上式满足强队偶关系¹ ，所以对原式求对偶得：
$\begin{cases} \max_\lambda\min_{w,b} L(w,b,\lambda) = \frac12 w^Tw+\sum_{i=1}^K \lambda_i(1-y^{(i)}(w^Tx^{(i)}+b))\\ s.t. \lambda_i \ge 0 \end{cases}$
先行求解 $\min_{w,b} L(w,b,\lambda) = \frac12 w^Tw+\sum_{i=1}^K \lambda_i(1-y^{(i)}(w^Tx^{(i)}+b))$ ，我们对其做偏导得：
$\begin{cases} \frac{\partial L(w,b,\lambda)}{\partial w}=w-\sum_{i=1}^K\lambda_iy^{(i)}x^{(i)}\\ \frac{\partial L(w,b,\lambda)}{\partial b}=-\sum_{i=1}^K\lambda_iy^{(i)} \end{cases}$
令其为0，得到 $w=\sum_{i=1}^K\lambda_iy^{(i)}x^{(i)},\sum_{i=1}^K\lambda_iy^{(i)}=0$ 。用其化简 $L(w,b,\lambda)$ 为：