机器学习笔记 -- SVM 支持向量机公式推导

本文链接：https://blog.csdn.net/qq_33826592/article/details/89707872

SVM

一、线性可分支持向量机
二、线性支持向量机
- 2.1 线性支持向量机与软间隔最大化
- 2.2 对偶算法
三、非线性支持向量机
四、SMO 序列最小优化算法

间隔最大使SVM有别于感知机；核技巧使它称为实质上的非线性分类器。

一、线性可分支持向量机

定义给定线性可分训练数据集，通过间隔最大化（或等价求解相应的凸二次规划）学习得到的分离超平面

$w^* \cdot x + b^* = 0$

以及相应的分类决策函数

$f(x)=sign(w^* \cdot x + b^*)$

称为线性可分支持向量机

1.1 线性可分支持向量机与硬间隔最大化

1.1.1 函数间隔

超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的函数间隔为

$\hat \gamma_i = y_i(w \cdot x_i + b)$

超平面 $(w, b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w, b)$ 关于训练数据集 $T$ 中的所有样本点 $x_i,y_i)$ 的函数间隔的最小值：

$\hat \gamma = \min _{i=1,\cdots,N} \hat \gamma_i$

函数间隔可以表示预测的正确性以及确信度。但是选择分离超平面时，成比例地改变 $w$ 和 $b$ ，此时函数间隔也成比例地改变了，但超平面并不会改变；因此将超平面的法向量 $w$ 规范化，即让 $\left \| w \right \|=1$ ，这样函数间隔就是确定的了，称之为几何间隔。

1.1.2 几何间隔

超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的几何间隔为

$\gamma_i = y_i \left( \frac {w}{\left \| w \right \|} \cdot x_i + \frac {b}{\left \| w \right \|} \right)$

超平面 $(w, b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w, b)$ 关于训练数据集 $T$ 中的所有样本点 $x_i,y_i)$ 的几何间隔的最小值：

$\gamma = \min _{i=1,\cdots,N}\gamma_i$

超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的几何间隔可以理解为实例点到超平面的带符号的距离（样本点被该超平面正确分类时为正，就是距离）

1.1.3 间隔最大化

考虑求解一个几何间隔最大的分离超平面

$\begin{aligned} &\max_{w,b} \quad \gamma \\ &s.t. \quad y_i \left( \frac {w}{\left \| w \right \|} \cdot x_i + \frac {b}{\left \| w \right \|} \right) \geq \gamma,\quad i=1,2,\cdots,N \end{aligned}$

可等价改写为

$\begin{aligned} &\max_{w,b} \quad \frac {\hat \gamma}{\left \| w \right \|}\\ &s.t. \quad y_i \left( w \cdot x_i + b \right) \geq \hat \gamma,\quad i=1,2,\cdots,N \end{aligned}$

如前面所说，当成比例地改变函数间隔 $\hat \gamma$ 时，超平面并不会改变，因此对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，也就是产生了一个等价的最优化问题；于是可以取 $\hat \gamma = 1$ ，带入上面优化问题，并注意到最大化 $\frac {1}{\left\| w \right\|}$ 和最小化 $\frac 1 2 \left\| w \right\|^2$ 等价，于是得到如下的线性可分支持向量机学习的最优化问题

$\tag{1.1} \begin{aligned} &\min_{w,b} \quad \frac 1 2 \left\| w \right\|^2 \\ &s.t. \quad y_i \left( w \cdot x_i + b \right) - 1 \geq 0,\quad i=1,2,\cdots,N \end{aligned}$

这是一个凸二次规划问题 $^1$ ，线性可分SVM的学习过程即为求解这个凸二次规划问题。这个解（亦即分离超平面）是存在且唯一的（李航《统计学习方法》page.100）

1.2 对偶算法

为求解上述最优化问题，应用拉格朗日对偶性 $^2$ ，通过求解对偶问题得到原始问题的最优解。
这样做的目的：

对偶问题往往更容易求解；
自然引入核函数，方便推广到非线性问题。

构建拉格朗日函数：对每一个不等式约束 $y_i \left( w \cdot x_i + b \right) - 1$ 引进拉格朗日乘子 $\alpha_i \geq0$ ，定义拉格朗日函数：

$L(w,b,\alpha) = \frac{1}{2} \left\| w\right\|^2 - \sum^N_{i=1}{ \alpha_i y_i(w \cdot x_i+b) } + \sum^N_{i=1}{\alpha_i}$

其中 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^T$ 为拉格朗日乘子向量。

则原问题可转化为一个极小极大问题：

$\min_{w,b} \max_{\alpha} L(w,b,\alpha)$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：

$\max_{\alpha} \min_{w,b} L(w,b,\alpha)$

因此先求 $L(w,b,\alpha)$ 对 $w, b$ 的极小，再求对 $\alpha$ 的极大。

求 $\min_{w,b} L(w,b,\alpha)$ ：将 $L(w,b,\alpha)$ 分别对 $w, b$ 求偏导并令偏导等于0.

$\triangledown_w L(w,b,\alpha)= w - \sum_{i=1}^N \alpha_i y_i x_i = 0$

$\triangledown_b L(w,b,\alpha)= \sum_{i=1}^N \alpha_i y_i= 0$

得

$\sum_{i=1}^N \alpha_i y_i x_i$

$\sum_{i=1}^N \alpha_i y_i= 0$

将上两式带入 $L(w,b,\alpha)$ 得

$\begin{aligned} L(w,b,\alpha) & = \frac{1}{2} \left\| w\right\|^2 - \sum^N_{i=1}{ \alpha_i y_i(w \cdot x_i+b) } + \sum^N_{i=1}{\alpha_i} \\ & = \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^N { \alpha_i y_i \left( \left( \sum_{j=1}^N \alpha_j y_j x_j \right) \cdot x_i+b \right)} + \sum^N_{i=1}{\alpha_i} \\ & = - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum^N_{i=1}{\alpha_i} \end{aligned}$

即

$\min_{w,b} L(w,b,\alpha) = - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum^N_{i=1}{\alpha_i}$

求 $\min_{w,b} L(w,b,\alpha)$ 对 $\alpha$ 的极大，即对偶问题：

$\begin{aligned} &\max_\alpha \quad - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + \sum^N_{i=1}{\alpha_i} \\ &s.t. \qquad \sum_{i=1}^N \alpha_i y_i= 0 \\ &\qquad \quad \alpha_i \geq 0,\quad i=1,2,\cdots,N \end{aligned}$

将目标函数由求极大转换成求极小，得到下面对偶最优化问题：

$\tag{1.2} \begin{aligned} &\min_\alpha \quad \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum^N_{i=1}{\alpha_i}\\ &s.t. \qquad \sum_{i=1}^N \alpha_i y_i= 0 \\ &\qquad \quad \alpha_i \geq 0,\quad i=1,2,\cdots,N \end{aligned}$

考虑原始最优化问题 $(1)$ 和对偶最优化问题 $(2)$ ，存在 $w^*,b^*,\alpha^*$ ，使 $w^*,b^*$ 是原始问题的解， $\alpha^*$ 是对偶问题的解，因此求解原始问题 $(1)$ 可以转换为求解对偶问题 $(2)$ 。

设 $\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T$ 是对偶问题的解，则根据KKT条件的推导，存在下标 $j$ 使得 $\alpha_j^* > 0$ （实际上训练数据集中对应于 $\alpha_j^* > 0$ 的样本点 $x_j,y_j)$ 称为支持向量），且可按下式求得原问题的解 $w^*,b^*$ ：

$w^*=\sum_{i=1}^N \alpha^*_i y_i x_i$

$b^* = y_i - \sum_{i=1}^N \alpha^*_i y_i (x_i \cdot x_j)$

二、线性支持向量机

2.1 线性支持向量机与软间隔最大化

线性不可分意味着某些样本点不可能满足函数间隔大于等于1的约束条件（即 $(1.1)$ 中约束条件），为解决此问题，需对每个样本点 $x_i,y_i)$ 引入一个松弛变量 $\xi_i \geq 0$ ，使函数间隔加上松弛变量后大于等于1，这样约束条件变为

$y_i \left( w \cdot x_i + b \right) \geq 1 - \xi_i$

同时，对每个松弛变量，支付一个代价，则 $(1.1)$ 中目标函数变为

$\frac 1 2 \left\| w \right\|^2 + C \sum_{i=1}^N\xi_i$

其中 $C > 0$ 为惩罚参数；最小化上述目标函数有两层含义：使 $\frac 1 2 \left\| w \right\|^2$ 尽可能小即间隔尽量大，同时使误分类点个数尽量小， $C$ 是调和二者的系数。

因此线性不可分的线性支持向量机的学习问题为如下凸二次规划问题（原始问题）：

$\tag{2.1} \begin{aligned} &\min_{w,b} \quad \frac 1 2 \left\| w \right\|^2 + C \sum_{i=1}^N\xi_i \\ &s.t. \quad y_i \left( w \cdot x_i + b \right) \geq 1 - \xi_i,\quad i=1,2,\cdots,N \\ & \qquad \xi_i \geq 0,\quad i=1,2,\cdots,N \end{aligned}$

可以证明 $w$ 的解唯一，但 $b$ 的解不唯一且存在于一个区间。

2.2 对偶算法

原始问题 $(2.1)$ 的对偶问题是

$\tag{2.2} \begin{aligned} &\min_\alpha \quad \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum^N_{i=1}{\alpha_i}\\ &s.t. \qquad \sum_{i=1}^N \alpha_i y_i= 0 \\ &\qquad \quad 0 \leq \alpha_i \leq C,\quad i=1,2,\cdots,N \end{aligned}$

三、非线性支持向量机

3.1 核函数

定义：如果存在一个从输入空间 $\mathcal X$ 到特征空间 $\mathcal H$ 的映射 $\phi(x):\mathcal X \to \mathcal H$ ，使得对所有 $\in \mathcal X$ ，函数 $K (x, z)$ 满足条件

$\phi(x) \cdot \phi(z)$

则称 $K (x, z)$ 为核函数， $\phi(x)$ 为映射函数。

常用核函数

线性核 $\cdot z$
多项式核函数 $\cdot z + 1)^p$
对应的支持向量机是一个 $p$ 次多项式分类器。
高斯核函数 $=e^ {- \frac{\left\| x-z \right\| ^2}{2\sigma^2}}$
对应支持向量机是高斯径向基函数分类器

SVM 的核函数选择和调参

https://blog.csdn.net/aliceyangxi1987/article/details/80617649

3.2 非线性支持向量分类机

从非线性训练集通过核函数与软间隔最大化，或凸二次规划，学习得到的分类决策函数（即非线性支持向量机）为

$\biggl( \sum_{i=1}^N \alpha^*_i y_i K(x,x_i) +b^* \biggr)$

非线性支持向量机学习算法：

构造最优化问题：

$\tag{3} \begin{aligned} &\min_\alpha \quad \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i \cdot x_j) - \sum^N_{i=1}{\alpha_i}\\ &s.t. \qquad \sum_{i=1}^N \alpha_i y_i= 0 \\ &\qquad \quad 0 \leq \alpha_i \leq C,\quad i=1,2,\cdots,N \end{aligned}$