【机器学习】SVM推导

最新推荐文章于 2024-09-24 14:41:29 发布

燃烧的浅蓝2021

最新推荐文章于 2024-09-24 14:41:29 发布

阅读量756

点赞数

分类专栏：机器学习文章标签：机器学习支持向量机算法

本文链接：https://blog.csdn.net/a806032098/article/details/121781027

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.相关知识

1.1感知机

感知机由 Rosenlatt 在 1957 年提出，它用来模拟神经细胞的动作和行为。单个神经元细胞可以被视为两种状态：激活为”是”，未激活为“否”。
其学习机是如下函数：
$f(x)=\text{sign}(\mathbf{w}^T\mathbf{x})$

然而，感知机所得到的最终的超平面不一定是唯一的，这往往依赖于其初值和迭代次序的设置，从本质上来讲是因为，感知机仅仅寻求将数据完全正确划分的超平面，而不考虑其他的准则。此外，感知机算法只能处理线性可分的数据，对于线性不可分的问题，算法会反复跌宕无法收敛到准确解。

支持向量机算法的提出，对这两个问题进行了解决。Cortes 与 Vapnik 提出线性支持向量机，通过最大化硬间隔的方式解决最终平面不唯一的问题。而 Boser、Guyon 与 Vapnik通过引入核技巧，提出了非线性的支持向量机，来处理非线性可分数据。

1.2 对偶理论

对于一个约束优化问题
$\begin{aligned} \min_{x} \quad &f(x)\\ \text{s.t.}\quad &g(x)\le0\\ &h(x)=0 \end{aligned}$

其对应的拉格朗日函数为：
$\mathcal{L} (x,\alpha,\beta) = f(x) +\alpha g(x) +\beta h(x),\quad \alpha\ge0$

容易验证：
$\max_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta)= \left\{\begin{matrix} f(x), \quad x\in D \\ +\infty,\quad x\notin D \end{matrix}\right.$ 其中 $D=\left \{x:g(x)\le0, h(x)=0\right\}$ 是问题的可行域。

于是原约束优化问题等价于：
$\min_{x}\max_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta)$

对偶问题是指，交换式中极大和极小的位置，即： $\max_{x}\min_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta)$

弱对偶总成立：
$\max_{x}\min_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta) \le \min_{x}\max_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta)$

强对偶是指上不等式取等号，即：
$\max_{x}\min_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta) =\min_{x}\max_{\alpha\ge0, \beta}\mathcal{L} (x,\alpha,\beta)$

强对偶的成立需要满足KKT条件：
$\begin{aligned} \nabla \mathcal{L}(x^*, \alpha^*,\beta^*)&=0\\ \alpha^*&\ge0\\ g(x^*)&\le 0\\ h(x^*)&=0\\ \alpha^* g(x^*) &=0 \end{aligned}$
特别地，对于凸优化问题，KKT条件总成立，这也为求解支持向量机提供了理论支撑。

2.线性支持向量机

在感知机中，同样是寻找超平面将数据进行分离，然而这样的超平面往往是不唯一的。
如下图，哪个分类超平面是最好的？
从直觉上来讲，黑色的超平面是最好的。因为蓝色超平面对于左侧的一个正类样本分类容易分错，而红色的超平面对于右侧的一个负分类样本容易分错。
在这里插入图片描述
那如何度量分类器的好坏？支持向量机提出了最大间隔的思想（Large Margin）。

2.1最大间隔

在这里插入图片描述
空间中的超平面方程可以表示为：
$\mathbf{w}^T\mathbf{x}+b=0$
若超平面能够将训练样本 $(\mathbf{x}_i,y_i)$ 分类正确，即：若 $y_i=+1$ 有 $\mathbf{w}^T\mathbf{x}+b>0$ ；若 $y_i=-1$ 有 $\mathbf{w}^T\mathbf{x}+b<0$ . 令
$\mathbf{w}^T\mathbf{x}+b\ge1,\quad y_i=+1;\\ \mathbf{w}^T\mathbf{x}+b\le1,\quad y_i=-1.$
上式总能成立，是由于对一个超平面 $(\mathbf{w},b)$ ，将其进行缩放，所对应的超平面不改变。

于是就得到了空间中三个平面，最大间隔定义为两个支撑平面之间的距离，也即：
$\frac{2}{||\mathbf{w}||}$

支持向量机的思想就是最大化间隔（Large Margin），即
$\begin{aligned} \max_{\mathbf{w},b} \quad&\frac{2}{||\mathbf{w}||}\\ \text{s.t.}\quad &y_i(\mathbf{w}^T\mathbf{x}_i+b)\ge1 \end{aligned}$
问题等价于
$\begin{aligned} \min_{\mathbf{w},b} \quad& \frac{1}{2}\mathbf{w}^T\mathbf{w}\\ \text{s.t.}\quad& y_i(\mathbf{w}^T\mathbf{x}_i+b)\ge1 \end{aligned}$ 这个问题是标准的二次规划问题，其对应的拉格朗日函数为：
$\mathcal{L}(\mathbf{w},b,\alpha)=\frac{1}{2}\mathbf{w}^T\mathbf{w}-\sum_{i}\alpha_i[ y_i(\mathbf{w}^T\mathbf{x}_i+b)-1]$ 由KKT条件可得
$\begin{aligned} \frac{\partial {\mathcal{L}}}{\partial {\mathbf{w}}}=0 \quad &\Rightarrow \quad\mathbf{w} =\sum_i\alpha_iy_i\mathbf{x}_i\\ \frac{\partial {\mathcal{L}}}{\partial {b}}=0 \quad &\Rightarrow \quad \sum_i\alpha_iy_i=0 \end{aligned}$ 带入到拉格朗日函数中，可以得到对偶问题为：
$\begin{aligned} \max_{\alpha} \quad &\sum_i\alpha_i-\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_j y_i y_j \mathbf{x}_i \mathbf{x}_j\\ \text{s.t.} \quad & \sum_i \alpha_iy_i=0\\ &\alpha_i\ge0 \end{aligned}$ 对偶问题同样是二次规划问题。假设对偶问题最优解为 $\alpha^*$ ，则原始问题的最优解 $\mathbf{w}^*、b^*$ 为：
$\mathbf{w}^*=\sum_i\alpha_i^*y_i\mathbf{x}_i\\ b = y_k-\mathbf{w}^* \cdot \mathbf{x_k}$ 这里 $k$ 是满足 $\alpha^*_k>0$ 的任意一个取值。

根据KKT条件，我们知道 $\alpha_i^*[y_i(\mathbf{w}^*\cdot \mathbf{x_i}+b)-1]\ge0$ 成立。若 $\alpha_i^*>0$ ，则必有 $y_i(\mathbf{w}^*\cdot \mathbf{x_i}+b)=1$ ，即 $\mathbf{x}^*$ 是支撑向量；若 $\alpha_i^*=0$ ，则 $\mathbf{x}^*$ 不是支撑向量。

换言之， $\mathbf{w}^*=\sum_i\alpha_i^*y_i\mathbf{x}_i$ ，意味着最终的分类平面的法向量，可以由有限个支撑向量加权组合表示，支撑向量的数量不超过 $m + 1$ 个（ $m$ 是数据的维度）。

2.2软间隔和正则化

上文所有的讨论，都是在一个前提下：数据是线性可分的，支持向量机总能够找到一个唯一的超平面将正负样本完全划分开。然而当数据线性不可分时。
一个解决的方法是容忍一些分类错误的样本，为此引入变量 $\xi_i$ ，并且构造如下的优化问题：
$\begin{aligned} \min_{\mathbf{w},b} \quad& \frac{1}{2}\mathbf{w}^T\mathbf{w}+C\sum_i^n\xi_i\\ \text{s.t.}\quad& y_i(\mathbf{w}^T\mathbf{x}_i+b)\ge1-\xi_i\\ &\xi_i\ge0 \end{aligned}$
同样地，我们能够得到其对偶问题：
$\begin{aligned} \max_{\alpha} \quad &\sum_i\alpha_i-\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_j y_i y_j \mathbf{x}_i \mathbf{x}_j\\ \text{s.t.} \quad & \sum_i \alpha_iy_i=0\\ &0\le\alpha_i\le C \end{aligned}$
可以看到同2.1中的唯一的差别是，对偶变量约束的不同，一个是 $0\le\alpha_i\le C$ ，一个是 $\alpha \ge0$ .
类似地我们也能够求得原问题的最优解 $\mathbf{w^*},b^*$ .

2.3核技巧

在实际的工作中，即使用2.2中的方法容许某些分类错误的样本，也很难找到一个好的平面将数据分开。

自然而然的想法是，通过一个映射 $\phi(x)$ 将非线性的数据从原始空间映射到一个更高维的空间，使得其在高维空间中线性可分。然而直接取寻找这样的映射通常是很困难的，因为特征空间的维数可能很高甚至无穷维。

但是，注意到在2.1和2.2构造对偶问题求解的过程中，数据点 $\mathbf{x}$ 总是以内积 $\mathbf{x}^T\mathbf{x}$ 的形式出现。因此，我们无需构造 $\phi(\mathbf{x})$ ，只要设想这样一个二元函数：
$K(\mathbf{x}_i,\mathbf{x}_j) = \left \langle \phi(\mathbf{x}_i),\phi(\mathbf{x}_j) \right \rangle =\phi(\mathbf{x}_i)^T\phi(\mathbf{x}_j)$

这样的函数就是核函数。

引入核函数后，优化问题可描述成：
$\begin{aligned} \max_{\alpha} \quad &\sum_i\alpha_i-\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_j y_i y_j K(\mathbf{x}_i,\mathbf{x}_j)\\ \text{s.t.} \quad & \sum_i \alpha_iy_i=0\\ &0\le\alpha_i\le C \end{aligned}$
通过核函数，我们隐式地定义了一个映射，将数据映射到一个高维空间。但是，我们不知道这个特征空间是否合适。因此和函数的选择很大程度上决定了分类器的性能。

下表列出了常用的核函数：

核函数	表达式
线性核	$K(\mathbf{x}_i, \mathbf{x}_j)=\mathbf{x}_i^T\mathbf{x}_j$
多项式核	$K(\mathbf{x}_i, \mathbf{x}_j)=(\mathbf{x}_i^T\mathbf{x}_j)^d$
高斯核	$K(\mathbf{x}_i, \mathbf{x}_j) =\exp(- \frac{1}{2\sigma^2}\left \\| \mathbf{x}_i-\mathbf{x}_j \right \\|)$
Sigmoid核	$K(\mathbf{x}_i, \mathbf{x}_j) = \tanh(\beta \mathbf{x}_i^T \mathbf{x}_j+\theta)$