支持向量机（SVM）原理推导：Soft-margin

態猛

于 2021-12-07 15:07:13 发布

阅读量696

点赞数 2

本文链接：https://blog.csdn.net/qq_45375932/article/details/121649113

版权

支持向量机软间隔拉格朗日乘子法对偶问题 KKT条件

关键词由CSDN通过智能技术生成

Soft-margin SVM原理推导

问题阐述

已知硬边缘支持向量机模型为：
$\begin{aligned} & \min_{w, b}\ \frac{1}{2}\|w\|^{2} \\ & \ s.t. \ \ y_{i}\left(\boldsymbol{w}^{\rm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m \end{aligned}$

然而现实训练样本存在不完全线性可分的情况，如下图所示
在这里插入图片描述
即存在某些样本不满足约束

$y_{i}\left(\boldsymbol{w}^{\rm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1$

因此引入“松弛变量” $\xi_i \ge 0$ ，并使得在最大化间隔的同时，不满足约束的样本应该尽可能少。

$\begin{aligned} & \min_{w, b, \xi_i} \ \frac{1}{2} \|w\|^{2} + C \sum_{i=1}^{m} \xi_i \\ & s.t. \quad y_{i}\left(\boldsymbol{w}^{\rm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1 - \xi_i\\ & \xi_i \ge 0 ,\quad i=1,2,...,m \end{aligned}$

拉格朗日对偶问题

使用拉格朗日乘子法得到拉格朗日函数：

$\begin{aligned} L(\boldsymbol{w}, b, \boldsymbol{\alpha}, \boldsymbol{\xi}, \boldsymbol{\mu})=& \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i} \\ &+\sum_{i=1}^{m} \alpha_{i}\left(1-\xi_{i}-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)-\sum_{i=1}^{m} \mu_{i} \xi_{i} \end{aligned}$

其中 $\alpha_i \ge 0,\mu_i \ge 0$ 是拉格朗日乘子。

即原始问题的等价问题变为：
$\min_{w, b, \xi_i} \max L(\boldsymbol{w}, b, \boldsymbol{\alpha}, \boldsymbol{\xi}, \boldsymbol{\mu})$

再求其对偶问题：

$\max \min_{w, b, \xi_i} L(\boldsymbol{w}, b, \boldsymbol{\alpha}, \boldsymbol{\xi}, \boldsymbol{\mu})$

求解 $\min_{w, b, \xi_i} L(\boldsymbol{w}, b, \boldsymbol{\alpha},\boldsymbol{\xi}, \boldsymbol{\mu})$ ，令 $L(\boldsymbol{w}, b, \boldsymbol{\alpha},\boldsymbol{\xi}, \boldsymbol{\mu})$ 对 $\boldsymbol{w}, \boldsymbol{\xi}, \boldsymbol{\mu}$ 求偏导数：

$\begin{aligned} & \frac{\partial L(\boldsymbol{w}, b, \boldsymbol{\alpha},\boldsymbol{\xi}, \boldsymbol{\mu})} {\partial \boldsymbol{w}} = \boldsymbol{w} - \sum_{i=1}^{m} \alpha_i y_i \boldsymbol{x_i} \\ & \frac{\partial L(\boldsymbol{w}, b, \boldsymbol{\alpha},\boldsymbol{\xi}, \boldsymbol{\mu})} {\partial b} = \frac{\partial \sum_{i=1}^m \alpha_i (-y_i)b} {\partial b} = - \sum_{i=1}^m \alpha_i y_i \\ & \frac{\partial L(\boldsymbol{w}, b, \boldsymbol{\alpha},\boldsymbol{\xi}, \boldsymbol{\mu})} {\partial \xi_i} = C - \alpha_i - \mu_i \end{aligned}$

令偏导数为零可得：

$\begin{aligned} & \boldsymbol{w} = \sum_{i=1}^{m} \alpha_i y_i \boldsymbol{x_i},\\ & 0 = \sum_{i=1}^m \alpha_i y_i \\ & C = \alpha_i + \mu_i \end{aligned}$

将其带入拉格朗日函数，对偶问题变为：

$\begin{aligned} \max _{\alpha} & \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} \\ \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0, \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \ldots, m \end{aligned}$

KKT条件

对于软间隔支持向量机，KKT条件要求：

$\left\{\begin{array}{l} \alpha_{i} \geqslant 0, \quad \mu_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i} \geqslant 0 \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i}\right) = 0 \\ \xi_{i} \geqslant 0, \mu_{i} \xi_{i} = 0 \end{array}\right.$

分析上述条件，对于 $\forall (\boldsymbol{x}_i, y_i)$ ，总有 $\alpha_i=0 \ \bigvee \ y_i f(\boldsymbol{x}_i)=1-\xi_i$ 。

若 $\alpha_i = 0$ ，则该样本无影响。
若 $y_i f(\boldsymbol{x}_i)=1-\xi_i$ ，则该样本为“支持向量”。由对偶问题的约束可知
- 若 $\alpha_i < C$ ，则 $\mu_i > 0$ ，进而 $\xi_i = 0$ ，该样本恰处于最大间隔边界
- 若 $\alpha_i = C$ ，则 $\mu_i = 0$ ，此时若 $\xi_i \le 1$ ，则样本处于最大间隔内部；若 $\xi_i \gt 1$ 则样本被错误分类

因此最终模型仅与支持向量有关，根据上述式子可得：

$\begin{aligned} w &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \end{aligned}$

令所有支持向量的下标集为 $\mathbf{S} = \{i \ | \ \alpha_i > 0, i = 1,2,...,n \}$ ，对于任意支持向量 $(\boldsymbol{x}_s,y_s)$ ，都有 $y_s f_(\boldsymbol{x}_s) = 1 - \xi_s$ ，因此