SVM算法（一）预备知识

最新推荐文章于 2022-09-02 00:53:20 发布

guofei_fly

最新推荐文章于 2022-09-02 00:53:20 发布

阅读量361

点赞数

分类专栏：机器学习数学文章标签：拉格朗日感知机对偶极大极小问题极小极大问题

本文链接：https://blog.csdn.net/guofei_fly/article/details/102252543

版权

机器学习同时被 2 个专栏收录

39 篇文章 10 订阅

订阅专栏

数学

14 篇文章 5 订阅

订阅专栏

SVM（支持向量机）是一种强大的机器学习算法，被广泛用于分类和回归问题。本系列将简要介绍SVM的推导过程和基本应用。考虑到SVM涉及到繁杂的数学推导，第一篇先介绍下前置的数学知识。

一、感知机

感知机是SVM的基础，也蕴含了早期神经网络NN的思想。

感知机是一种用于求解二分类的判别式线性模型，其假设输入数据 ${(x_1,y_1),(x_2,y_2),...(x_i,y_i)...(x_N,y_N)\}$ 为正、负 ${-1, 1\}$ 两类，通过判断 $f(w,b)=sign(wx_i+b)$ 给出判别类型。
在这里插入图片描述
如何定义这种模型的损失函数呢？一种显而易见的方案是判别错误的样本数量 $\sum\limits_{f(x_i;w,b)\neq y_i}1$ ，但其求解属于NP-hard问题。所以，一种替代方案方式是错误样本到分割直线的距离之和最短，即损失函数取： $-\sum\limits_{i\in M}\frac{1}{||w||}(y_i(wx_i+b))$
其中 $M$ 为判断错误的点集合。对于某个分割面而言， $w$ 和 $b$ 同时放大和缩小若干倍，平面并不变化，也不影响距离计算结果。为方便计算，默认 $∣ ∣ w ∣ ∣ = 1$ （实际迭代过程中，并不需要归一化，并不影响最终结果），即最终选取的损失函数为： $-\sum\limits_{i\in M}y_i(wx_i+b)$
在迭代过程中，采用随机梯度下降策略，即迭代公式为：
$\begin{aligned}& w\leftarrow w+\mu x_iy_i\\& b\leftarrow b+\mu y_i\end{aligned}$
整个感知机的迭代过程可概括为：

选取初始 $w_0$ , $b_0$
选择某个训练点 $x_i,y_i)$
判断是否为当前模型误分点，即 $y_i(wx_i+b)<0$ 。如果是，则不断更新模型参数，直至该点不被误分： $\begin{aligned}& w\leftarrow w+\mu x_iy_i\\& b\leftarrow b+\mu y_i\end{aligned}$
转到步骤2，直至整个训练集中无误分点，或达到预设的迭代终止条件。

注意到在上述整个迭代公式中， $w$ 和 $b$ 的更新分别为对各错误点 $x_iy_i$ 和 $y_i$ 的迭加。因此， $w$ 和 $b$ 可表示为：
$\begin{aligned}&w=\sum_i\alpha_ix_iy_i\\&b=\sum_i\alpha_iy_i\end{aligned}$
其中 $\alpha_i=n_i\mu$ ，即为各点总共被误分次数与学习率 $\mu$ 的积。
这也就是对偶形式算法的基本思想。其迭代过程可整理为：

选取初始 $\boldsymbol \alpha=[\alpha_1,...\alpha_i,...,\alpha_N]$
选择某个训练点 $x_i,y_i)$
判断是否为当前模型误分点，即 $y_i(\sum\limits_j\alpha_jy_j(x_j*x_i)+\sum\limits_j\alpha_jy_j)<0$ 。如果是，则不断更新模型参数，直至该点不被误分： $\alpha_i\leftarrow \alpha_i+\mu$
转到步骤2，直至整个训练集中无误分点，或达到预设的迭代终止条件。

相较于原始算法，对偶形式算法可以通过保存内积矩阵 $x_i,x_j]$ （即Gram矩阵）以进行更迭，特别适用于样本特征数高的情况。
也就是说：当数据特征过高时，可通过对偶形式保存样本内积，加速迭代；而当数据量过高时，可直接使用原始形式进行迭代。

二、拉格朗日对偶性

考虑带约束的最优化问题：
$\begin{aligned} &\min\limits_xf(x) \\ s.t. \space\space &c_i(x)<=0,i=1,2...,k\\&h_j(x)=0,j=1,2...,l\end{aligned}$
其中 $f (x), c (x), h (x)$ 均为连续可微函数。
对应的广义拉格朗日函数为：
$L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^k\alpha_ic_i(x)+\sum\limits_{i=1}^k\beta_ih_i(x)$
其中 $\alpha_i$ , $\beta_i$ 为拉格朗日算子，且 $\alpha_i\ge0$

2.1 广义拉格朗日的极大极小问题

广义拉格朗日的极大极小问题可写成： $\min\limits_x\max\limits_{\alpha\ge0,\beta}L(x,\alpha, \beta)$
首先观察内部的极大问题： $\theta_p(x)=\max\limits_{\alpha\ge0,\beta}L(x,\alpha, \beta)$
注意到若 $c (x)$ 或 $h (x)$ 不严格满足最优化条件中的约束条件，则存在 $\alpha_i\rightarrow +\infin$ 或 $\beta_ih_i(x)\rightarrow +\infin$ ，使得 $\theta_p(x)=+\infin$ 。若 $c (x)$ 或 $h (x)$ 严格满足最优化条件中的约束条件，则 $\theta_p(x)=f(x)$ 。所以， $\min\theta_p(x)$ 和原最优化目标等效。
也就是说，广义拉格朗日的极大极小问题等效于原始最优化问题。
原问题的最优解可写成 $p^*=\min\theta_p(x)$ 。

2.2 广义拉格朗日的极小极大问题

广义拉格朗日的极小极大问题可写成：
$\max\limits_{\alpha\ge0,\beta}\min\limits_xL(x,\alpha, \beta)$
首先观察内部的极小问题：
$\theta_D(\alpha, \beta)=\min\limits_{x}L(x,\alpha, \beta)$
此时 $\alpha,\beta$ 为超参数，仅 $x$ 为变量，便于求解。在求出对应的 $x$ 后再求解最佳的 $\alpha$ 和 $\beta$ ，从而简化原始问题。
广义拉格朗日的极小极大问题亦称为原始问题的对偶问题。对偶问题的解可写作： $d^*=\max\limits_{\alpha\ge0,\beta}\theta_D(\alpha, \beta)$

2.3 原始问题和对偶问题的关系

$\theta_D(\alpha, \beta)=\min\limits_{x}L(x,\alpha, \beta)\le L(x,\alpha,\beta)\le\theta_p(x)\le\max\limits_{\alpha\ge0,\beta}L(x,\alpha, \beta)=\theta_p(x)$
可知： $d^*\le p^*$ ,即对偶问题的解不大于原始问题的解

2.4 Slater条件和KKT条件

通过增强条件，可使得 $d^*= p^*$ ，即存在 $x^*,\alpha^*,\beta^*$ 同时为原始问题和对偶问题的解，也称强对偶。这些条件包括：
1）目标函数 $f (x)$ 为凸函数
2) 约束条件 $h_j(x)$ 和 $c (x)$ 所构成的可行域为凸集
3) $c (x)$ 是严格可行的，即存在 $x$ ，对于所有的 $i$ ，有 $c_i(x)<0$
这也称为Slater条件。Slater条件是强对偶的充分非必要条件，常用来判断强对偶的满足与否，从而将原始问题转化为对偶问题。

那又如何求满足强对偶的解呢？这就是KKT条件要求解的问题。
若满足强对偶条件，则原问题和对偶问题的共同解，可通过如下KKT条件求解：
$\begin{aligned} &\nabla_xL(x^*,\alpha^*,\beta^*)=0\\& \alpha^*_ic_i(x)=0\\&\alpha^*_i\ge0\\&c_i(x)\le0\\&h_j(x)=0\end{aligned}$ 对比原始问题和KKT条件，不满发现唯一的变化在于多了如下条件： $\alpha_i^*c_i(x)=0$ 即 $\alpha_i^*$ 和 $c_i(x)$ 中至少有一个为0。

2.5 利用拉格朗日对偶性的一般步骤

通过拉格朗日对偶性求解最优化问题采用了一种变量分离的策略，即通过分别求解不同的自变量求得最终的优化问题。
总结下利用拉格朗日对偶性简化问题的一般步骤：
1）定义原始问题的最优化目标和约束条件，并明确是否满足凸函数的基本定义，判断是否为强对偶问题；
2）将原始问题转对偶问题；
3）利用KKT条件，求解对偶问题；
4）满足上述各条件的解，即为原始条件的解。