吴恩达机器学习（七）支持向量机 2/3 —— 线性 SVM

最新推荐文章于 2023-04-06 21:49:56 发布

Fun'

最新推荐文章于 2023-04-06 21:49:56 发布

阅读量774

点赞数 2

分类专栏：机器学习文章标签：机器学习支持向量机 svm 拉格朗日乘子法对偶问题

本文链接：https://blog.csdn.net/m0_37867091/article/details/105220935

版权

机器学习专栏收录该内容

21 篇文章 281 订阅

订阅专栏

$\color{#f00}{***\ 点击查看\ :吴恩达机器学习 \ —— \ 整套笔记+编程作业详解\ ***}$
第一部分：支持向量机 1/3 —— 建立 SVM 基本型（超平面与间隔）

SVM求解——数学基础

SVM中涉及的数学知识较多：凸优化，拉格朗日乘子法，KKT条件，拉格朗日对偶等等。

建议先逐一了解这些概念（耐心看完）：

对拉格朗日乘子法补充一点：马同学的模型是在二维空间上，下图补充三维空间上的理解： $\begin{aligned}&\min f(x,y)=xy\\ &\text {（椭圆）s.t. } h_{i(x,y)}=\frac{x^2}{8}+\frac{y^2}{2}-1=0\end{aligned}$ 下面是几何解释， $f (x, y) = x y$ 的等高线图在最下面, 也就是双曲线 $x y = c$ (c是相应的函数值), 椭圆 $x^2/8+y^2/2=1$ 在 $f$ 函数曲面上为蓝色曲线。
从上图可知双曲线离开原点越远， $f$ 的绝对值越大，需要在约束条件下：椭圆 $x^2/8+y^2/2=1$ 上使 $f (x, y)$ 取极值点，也就是与椭圆相切的双曲线会距离原点最远。在这四个切点中，双曲线的法线也是椭圆的法线。观察下图动画, 可以看到黑色 $▽ f$ 是 $▽ g$ 的数值倍数，最大值处两个梯度向量方向相同, 最小值处方向相反。

线性SVM求解

在第一部分得到SVM的基本数学模型（基本型）后，我们现在要求解的就是一个最优化问题。
$\begin{array}{l} \displaystyle\min _{w, b} \frac{1}{2}\|w\|^2\\ \text { s.t. } \ y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \quad i=1,2, \ldots, m \end{array}$ 由于基本型的目标函数是二次的，且约束条件是线性的，这是一个凸二次规划问题。可以直接用现成的优化计算包求解，如scikit-learn等，本节课配套的编程作业就是用的这种方法。（编程作业（python）| 支持向量机 SVM）

二次规划：
目标函数和约束条件都为变量的线性函数，叫做------线性规划问题。
目标函数为变量的二次函数，约束条件为变量的线性函数，叫做------二次规划问题（即本问题）。
目标函数和约束条件都为非线性函数，叫做------非线性规划问题。

除了用现成的优化计算包，我们还可以用其他方法来解决SVM的优化问题。在此之前，我们先来看下优化问题有哪些类别以及用什么方法解决：

优化问题及数学表达	优化方法
无约束优化问题 $min{f(x)}$	费马大定理(Fermat)，即使用求取函数f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解。这也就是我们高中经常使用的求函数的极值的方法。
有等式约束的优化问题 $\begin{aligned}&\min f(x)\\ &\text {s.t. } h_{i(x)}=0, \quad i=1,2, \ldots, m\end{aligned}$	拉格朗日乘子法（Lagrange Multiplier) ，即把等式约束 $h_i(x)$ 用一个系数与 $f (x)$ 写为一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。
有不等式约束的优化问题 $\begin{aligned}&\min f(x)\\&\text {s.t. } g_{i(x)} \leq 0, \quad i=1,2, \ldots, n\\&h_{j(x)}=0, \quad j=1,2, \ldots, m\end{aligned}$	同样地，我们把所有的等式、不等式约束与 $f (x)$ 写为一个式子，也叫拉格朗日函数，系数也称拉格朗日乘子，通过一些条件，可以求出最优值的必要条件，这个条件称为KKT条件。

了解到这些，显然SVM的优化问题是属于第三类：有不等式约束的优化问题。用拉格朗日乘数法和 KKT条件可以解决此类问题。

深究SVM中的数学原理是件很痛苦的事，上述数学原理了解即可，主要是为了SVM的推导做铺垫。

总结将 原始问题 转化为 拉格朗日对偶问题 的步骤如下：

步骤	一般优化问题	SVM
原始问题	$\begin{array}{l}\displaystyle\min _{x} f(x)\\ \text { s.t. } \ c_i(x) \leq 0, \quad i=1,2, \ldots, m\end{array}$	$\begin{array}{l} \displaystyle \min _{w, b} \frac{1}{2}\\|w\\|^2 \\ \text { s.t. } \ y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \quad i=1,2, \ldots, m\end{array}$
拉格朗日函数	$\mathcal{L}(x, \alpha)=f(x)+\sum_{i=1}^{m} \alpha_{i} c_{i}(x)$	$\mathcal{L}(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\\|\boldsymbol{w}\\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left(y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)-1\right)$
拉格朗日对偶（满足KKT条件）	$\max_{\alpha_i≥0}\min _{x}\left(\mathcal{L}(x, \alpha)\right)$	$\max_{\alpha_i≥0}\min _{w, b}\left(\mathcal{L}(w, b, \alpha)\right)$

对偶问题求解

将原始问题转化为拉格朗日对偶问题后：
$\begin{aligned} &\max_{\alpha_i≥0}\min _{w, b}\left(\mathcal{L}(w, b, \alpha)\right)\\ &\mathcal{L}(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left(y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)-1\right) \end{aligned}$ 我们的问题转化为：

首先固定 $\alpha$ ，使 $\mathcal{L}(w, b, \alpha)$ 关于 $w, b$ 最小化。分别对w和b偏导数，令其等于0，即：
$\begin{array}{l} \displaystyle\frac{\partial \mathcal{L}}{\partial \boldsymbol{w}}=0 \Rightarrow \boldsymbol{w}=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \\ \displaystyle\frac{\partial \mathcal{L}}{\partial b}=0 \Rightarrow \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \end{array}$ 将求导结果带回 $\mathcal{L}(w, b, \alpha)$ ，得到
$\begin{aligned} \mathcal{L}(\boldsymbol{w}, b, \boldsymbol{\alpha}) &=\frac{1}{2}\|\boldsymbol{w}\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)-1\right] \\ &=\frac{1}{2} \boldsymbol{w}^{\mathrm{T}} \boldsymbol{w}-\boldsymbol{w}^{\mathrm{T}} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i}+\sum_{i=1}^{m} \alpha_{i} \\ &=\frac{1}{2} \boldsymbol{w}^{\mathrm{T}} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}-\boldsymbol{w}^{\mathrm{T}} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}-b \cdot 0+\sum_{i=1}^{m} \alpha_{i} \\ &=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2}\left(\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}\right)^{\mathrm{T}} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \\ &=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} \end{aligned}$ 此时的 $\mathcal{L}(w, b, \alpha)$ 函数只含有一个变量，即 $α_i$ ，因此 $\max_{\alpha_i≥0}\min _{w, b}\left(\mathcal{L}(w, b, \alpha)\right)=\max_{\alpha_i≥0}\left(\mathcal{L}(w, b, \alpha)\right)$
再对 $\alpha$ 求 $\mathcal{L}(w, b, \alpha)$ 最大，对偶问题可以进一步转化为：
$\begin{aligned} &\displaystyle\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} \\ &\text {s.t.} \ \alpha_{i} \geq 0, i=1,2, \cdots, m \\ &\quad \displaystyle\sum_{i=1}^{m} \alpha_{i} y_{i}=0 \end{aligned}$

现在我们的优化问题变成了如上的形式。对于这个问题，我们有更高效的优化算法，即 序列最小优化（Sequential Minimal Optimizaion-SMO）算法。我们通过这个优化算法能得到 $α$ ，再根据 $α$ ，我们就可以求解出 $w$ 和 $b$ ，进而求得我们最初的目的：找到超平面，即"决策边界"。

解得 $\alpha$ 后，即可求出 $w$ 和 $b$ ，得到线性SVM的超平面：
$\begin{aligned} f(x) &=w^{T} x+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}^{T} x+b \end{aligned}$

注：上述过程均要满足KKT条件，即：
$\left\{\begin{array}{c} \alpha_{i} \geq 0 \\ y_{i} f(x)-1 \geq 0 \\ \alpha_{i}\left(y_{i} f(x)-1\right)=0 \end{array}\right.$
因此对于任意训练样本 $x_i, y_i)$ ，总有 $\alpha_i=0$ 或 $y_if(x)-1=0$ 。

当 $\alpha_i=0$ 时， $f (x) = b$ ，则该样本不会对 $f (x)$ 产生影响；
当 $y_if(x)-1=0$ ，此时 $\alpha_i≥0$ ，对应样本点落在最大间隔边界上，即为支持向量。同时这也是支持向量的一个重要性质：模型训练完成后，大部分的训练样本不需要保留，最终的模型参数仅与支持向量有关。