SVM 公式推导_svm预测函数-CSDN博客

本文链接：https://blog.csdn.net/weixin_37142859/article/details/95201524

文章目录

- 1.1. SVM

1.1. SVM

1.1.1. 支持向量机的基本型

思想:找到一个划分两类训练样本的超平面，并使间隔最大化。

（1）超平面:表达式
$\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0$

（2）函数间隔
定义样本点 $x_i, y_i)$ 到超平面( $\boldsymbol{w}, b$ )函数间隔为：
$\hat{\gamma_i} = y_i(\boldsymbol{w}^T\boldsymbol{x_i} + b)$

函数间隔为正表明分类正确，负表明分类错误，因此函数间隔可以表示分类预测的正确性;
在超平面保持不变的情况下，等比例缩放 $\boldsymbol{w}、b$ ,会导致函数间隔也等比例缩放，因此需要进行约束。

（3）几何间隔
样本点 $x_i, y_i)$ 到超平面( $\boldsymbol{w}, b$ )几何间隔为：
$\gamma_i=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x_i}+b\right|}{\|\boldsymbol{w}\|}$

几何间隔的物理含义是点到超平面的距离,即使超平面参数等比例发生变化，几何间隔仍保持不变

点到平面距离
若点坐标为 $x_0,y_0,z_0)$ ,平面为 $A x + B y + C z + D = 0$ ,则点到平面的距离为
$d=\left|\frac{A x_{0}+B y_{0}+C z_{0}+D}{\sqrt{A^{2}+B^{2}+C^{2}}}\right|$

几何间隔与函数间隔关系：
$\gamma_i = \frac{\hat{\gamma_i}}{\|\boldsymbol{w}\|}$

(4) 间隔最大化
样本点到超平面的最小距离为
$\gamma = \min_{i=1,...N}\gamma_i$
要使间隔最大化，即求解下面的约束问题：
$\max_{\boldsymbol{w}, b} \gamma \\ \text{s.t. } \frac{y_i(\boldsymbol{w^Tx_i}+b)}{\|\boldsymbol{w}\|}\geqslant \gamma, i=1,...N$

根据函数间隔和几何间隔的关系，得到
$\max_{\boldsymbol{w}, b} \frac{\hat{\gamma}}{\|\boldsymbol{w}\|} \\ \text{s.t. } y_i(\boldsymbol{w^Tx_i}+b)\geqslant \hat{\gamma}, i=1,...N$

$\hat{\gamma}$ 的改变不影响最优化问题的求解。为方便将 $\hat{\gamma}=1$ ，于是得到优化目标 $\frac{1}{\|\boldsymbol{w}\|}$ 。又因为最大化 $\frac{1}{\|\boldsymbol{w}\|}$ 和最小化 $\frac{1}{2} \|\boldsymbol{w}\| ^2$ 等价，所以：
$\min _{\boldsymbol{w}, b} \frac{1}{2}{\|\boldsymbol{w}\|}^2 \\ \text{s.t. }y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m$

1.1.2. 对偶问题

（1）构建拉格朗日函数
对SVM的基本型使用拉格朗日乘子法可以得到拉格朗日函数。即对每条约束添加拉格朗日乘子 $\alpha_i \geqslant 0$ .
$L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)$
原始目标函数转化成：
$\max_{\boldsymbol{w}, b}L(\boldsymbol{w}, b, \alpha)$

如果约束条件不满足，即出现 $(1-y_i(\boldsymbol{w^Tx_i}+b))>0$ ,令 $\alpha_i$ 趋近于无穷，目标函数取值也趋近于无穷。

对目标函数取最小值，原问题转化成：
$\min_\alpha \max_{\boldsymbol{w}, b}(L(\boldsymbol{w}, b, \alpha))$

由于不满足约束条件的函数值为无穷大，因此取得的最小值必然满足约束条件

（2）转化为对偶问题

为什么转化为对偶问题？
1.对偶问题将原始问题中的约束转为了对偶问题中的等式约束
2.方便核函数的引入
3.改变了问题的复杂度。由求特征向量w转化为求比例系数a，在原始问题下，求解的复杂度与样本的维度有关，即w的维度。在对偶问题下，只与样本数量有关。

原始问题是极小极大问题，转化为对偶问题为极大极小问题。
$\max_\alpha \min_{\boldsymbol{w},b}L(\boldsymbol{w}, b, \alpha)$

（3）计算 $\min_{\boldsymbol{w},b}L(\boldsymbol{w}, b, \alpha)$

令 $L(\boldsymbol{w},b,x)$ 对 $\boldsymbol{w}, b$ 的偏导为0
$\frac{\partial L}{\partial \boldsymbol{w}}=\boldsymbol{w} - \sum_{i=1}^m\alpha_iy_i\boldsymbol{x_i}=0$
$\frac{\partial L}{\partial b} = -\sum_{i=1}^m\alpha_iy_i=0$
得
$\boldsymbol{w}=\sum_{i=1}^m\alpha_iy_i\boldsymbol{x_i}$
$\sum_{i=1}^m\alpha_iy_i=0$
将 $\boldsymbol{w}=\sum_{i=1}^m\alpha_iy_i\boldsymbol{x_i}$ 代入拉格朗日函数：
$\begin{aligned} L(\boldsymbol{w}, b, \boldsymbol{\alpha})&=\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+ \sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right) \\ &=\frac{1}{2}\sum_{i=1}^m{\alpha_iy_i\boldsymbol{x_i}^T} \sum_{j=1}^m\alpha_jy_j\boldsymbol{x_j} +\sum_{i=1}^m\alpha_i(1-y_i(\sum_{j=1}^m \alpha_j y_j \boldsymbol{x_j}^T \boldsymbol{x_i} + b)) \\ & = \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_j y_i y_j \boldsymbol{x_i}^T \boldsymbol{x_j} + \sum_{i=1}^m \alpha_i - \sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_j y_i y_j \boldsymbol{x_i}^T \boldsymbol{x_j} + b\sum_{i=1}^m\alpha_i y_i \\ &=\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_j y_i y_j \boldsymbol{x_i}^T \boldsymbol{x_j} \end{aligned}$
（4）对偶问题
上式计算出来是满足条件的间隔，而我们的目标是间隔最大化，同时考虑到关于 $\alpha$ 的约束条件，得到如下问题：
$\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$
$\begin{array}{ll}{\text { s.t. }} & {\sum_{i=1}^{m} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m}\end{array}$

原始问题的最优解( $\boldsymbol{w^*},b^*$ )和对偶问题最优解( $\alpha^*$ )满足KKT条件时：
$\left\{\begin{array}{l}{\alpha_{i} \geqslant 0} \\ {y_{i} f\left(x_{i}\right)-1 \geqslant 0} \\ {\alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0}\end{array}\right.$
二者的解相同。

$L(a,b,x)=f(x)+a\cdot g(x) + b \cdot h(x)$ , 原始问题最优解 $x^*$ ,对偶问题最优解 $a^*, b^*$ .
KKT条件:
i. $\nabla_{x} L\left(a^{*}, b^{*}, x^{*}\right)=0, \nabla_{a} L\left(a^{*}, b^{*}, x^{*}\right)=0, \nabla_{b} L\left(a^{*}, b^{*}, x^{*}\right)=0$
ii. $a^{*} \cdot g_{i}\left(x^{*}\right)=0$
iii. $g_{i}\left(x^{*}\right) \leq 0$
vi. $a_{i}^{*} \geq 0, h_{j}(x)=0$

(5) 求解结果
假设求解得到最优解的为 $\alpha^*$ ,则
$\boldsymbol{w^*} = \sum_{i=1}^m\alpha_i^*y_i\boldsymbol{x_i}$
$b^*=\frac{1}{|S|} \sum_{s \in S}\left(y_{s}-\sum_{i=1}^m \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{s}\right)$
于是超平面为:
$\boldsymbol{w^*x} + b^* = 0$
决策函数为:
$sign(\boldsymbol{w^*x}+b^*)$

1.1.3. 软间隔

以上提出的支持向量机模型是线性的，对于线性不可分的数据不适用。线性不可分意味着部分样本不能满足函数间隔大于等于1的约束条件。为此，为每个样本点引入松弛变量 $\xi_i \geqslant 0$ ,使得函数间隔加上松弛变量大于等于1，约束条件变成：
$y_i(\boldsymbol{w^Tx_i}+b)\geqslant 1-\xi_i$
对每个松弛变量 $\xi_i$ ，支付一个代价 $\xi_i$ ,则目标函数变成：
$\frac{1}{2}\|\boldsymbol{w}\|^2+C\sum_{i=1}^m\xi_i$

C为惩罚系数。

（1）原始问题
引入软间隔之后，原始问题变成：
$\min_{\boldsymbol{w}, b, \xi} \frac{1}{2}\|\boldsymbol{w}\|^2+C\sum_{i=1}^m\xi_i \\ \text{s.t. }y_i(\boldsymbol{w^Tx}+b) \geqslant 1-\xi_i, i=1,...,m\\ \xi_i \geqslant 0, i=1,...,m$

(2)对偶问题
先求出拉格朗日函数：
$\begin{aligned} L(\boldsymbol{w}, b, \boldsymbol{\alpha}, \boldsymbol{\xi}, \boldsymbol{\mu})= \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i}+\sum_{i=1}^{m} \alpha_{i}\left(1-\xi_{i}-y_{i}\left(\boldsymbol{w}^{T} \boldsymbol{x}_{i}+b\right)\right)-\sum_{i=1}^{m} \mu_{i} \xi_{i} \end{aligned}$

再对 $\boldsymbol{w}, b, \xi_i$ 求偏导等于0得到：
$\begin{aligned} w &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \\ 0 &=\sum_{i=1}^{m} \alpha_{i} y_{i} \\ C &=\alpha_{i}+\mu_{i} \end{aligned}$

最后得到对偶问题：
$\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} \\ \text{s.t. } \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \ldots, m$

相较于硬间隔支持向量机， $\alpha_i$ 增加了一个约束C,其余相同.

KKT条件:
$\left\{\begin{array}{l}{\alpha_{i} \geqslant 0, \quad \mu_{i} \geqslant 0} \\ {y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i} \geqslant 0} \\ {\alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i}\right)=0} \\ {\xi_{i} \geqslant 0, \mu_{i} \xi_{i}=0}\end{array}\right.$

1.1.4. 核函数

(1)核技巧
对于非线性分类问题,首先使用一个变换将原空间的数据映射到新空间,然后再新空间里用线性分类学习方法从训练数据中学习分类模型.

(2)核函数
核函数与映射函数的关系
设 $X$ 是输入空间, $H$ 是特征空间(希尔伯特空间),如果存在一个从 $X$ 到 $H$ 的映射,
$\phi(x):X\rightarrow H$
使得对于所有的 $\in X$ ,函数 $K (x, z)$ 满足条件
$K(x,z)=\phi(x)^T\cdot \phi(z)$
则成 $K (x, z)$ 为核函数.
在实际使用中,只定义核函数,不显性定义映射.因为映射后的空间维数可能很高,直接计算 $\phi(x)^T\cdot \phi(z)$ 通常很困难.由于计算结果是一个数,因此可以使用核函数来替代映射内积的结果

(3)原始问题:
${\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}} \\ {\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \phi\left(\boldsymbol{x}_{i}\right)+b\right) \geqslant 1, \quad i=1,2, \ldots, m}$

(4)对偶问题
$\begin{array}{cl}{\max _{\alpha}} & {\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)} \\ {\text { s.t. }} & {\sum_{i=1}^{m} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m}\end{array}$

(5)决策平面
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \kappa\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right)+b \end{aligned}$