小白学机器学习西瓜书-第六章支持向量机(3)-CSDN博客

本文链接：https://blog.csdn.net/jiang1350/article/details/125993198

小白学机器学习西瓜书-第六章支持向量机3

6.6 软间隔与正则化

在前面的讨论中，我们一直做了一个假定，即存在一个超平面能够将不同类的样本完全进行区分。但这个假定显然是比较绝对的，因此我们需要允许算法分类的一些样本出错，这就是“软间隔”。

6.6 软间隔与正则化

前面我们提出的约束为

$\begin{cases} w^Tx_i+b\geq 1 & y_i=+1\\ w^Tx_i+b\leq -1 &y_i=-1 \tag{4} \end{cases}$
这里的含义是指所有的样本点均划分正确，称为硬间隔。
我们将其归纳为 $\quad y_i(w^Tx_i+b)\geq 1$

我们将目标函数进行修改，使得在最大化间隔的同时，使得不满足约束的样本尽可能的少
$\min_{w,b}\frac{1}{2}\mid \mid w\mid\mid^2+C\sum^m_{i=1}l_{0/1}(y_i(w^Tx_i+b)-1)\tag{21}$

其中，C为惩罚常数， $l_{0/1}$ 为损失函数，当样本分类正确，则z值为0，否则为1
$l_{0/1}(z)=\begin{cases} 1 & if \quad z<0\\ 0&otherwise \tag{22} \end{cases}$

当C为无穷大时，式（21）就会迫使所有样本满足约束条件，目标函数就会退化为之前的硬间隔，但当C取有限值时，算法会允许一些样本不满足约束条件。

但 $l_{0/1}$ 这个损失函数非凸不连续，因此我们寻找替代函数，如hinge损失
$l_{hinge(z)}=\max(0,1-z)$

则式（21）变为
$\min_{w,b}\frac{1}{2}\mid \mid w\mid\mid^2+C\sum^m_{i=1}\max(0,1-y_i(w^Tx_i+b))\tag{23}$

使式子更加简约，我们引入松弛变量

令 $\xi_i=\max(0,1-y_i(w^Tx_i+b)) \geq 0$

当 $1-y_i(w^Tx_i+b) > 0$ 时， $\xi_i=1-y_i(w^Tx_i+b)$
当 $1-y_i(w^Tx_i+b) \leq 0$ 时， $\xi_i=0$

因此， $\xi_i\geq1-y_i(w^Tx_i+b)$

整合一下即为
$\min_{w,b,\xi_i}\frac{1}{2}\mid \mid w\mid\mid^2+C\sum^m_{i=1}\xi_i\\ s.t.\quad y_i(w^Tx_i+b)\geq 1-\xi_i\\ \quad\quad\xi_i\geq 0,i=1,2,...,m \tag{24}$

继续寻找其对偶问题求解
其拉格朗日函数( $\alpha,\mu$ 为乘子)为
$L(w,b,\alpha,\xi,\mu)=\frac{1}{2}\mid \mid w\mid\mid^2+C\sum^m_{i=1}\xi_i+\sum^m_{i=1}\alpha_i(1-\xi_i-y_i(w^Tx_i+b))\\ -\sum^m_{i=1}\mu_i\xi_i\tag{25}$

为了求拉格朗日函数关于自变量的最小值，我们分别对 $(w,b,\xi_i)$ 求偏导
$\frac{l}{\partial w}=w-\sum^m_{i=1}\alpha_iy_ix_i\\\ \frac{l}{\partial b}=-\sum^m_{i=1}\alpha_iy_i\\ \frac{l}{\partial \xi_i}=C-\alpha_i-\mu_i$

使他们都为0，可得到
$\begin{cases} w=\sum^m_{i=1}\alpha_iy_ix_i\\ \sum^m_{i=1}\alpha_iy_i=0\\ \alpha_i+\mu_i=C \tag{26} \end{cases}$

将其带入式（25）即可得到对偶问题
$\max_{\alpha}\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i=1}\sum^m_{j=1}\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t.\quad \sum^m_{i=1}\alpha_iy_i=0\\ \quad\quad\quad\quad C\geq \alpha_i\geq 0,i=1,2,...,m \tag{27}$

对比一下硬间隔的对偶问题

$\qquad \qquad\max(\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_jx_i^Tx_j)\\ s.t.\quad \sum_{i=1}^m\alpha_i y_i=0\\ \quad \quad \quad \quad \quad\quad \alpha_i \geq 0,i=1,2...,m \tag{17}$

可以发现，区别主要在于 $\alpha$ 的取值

接下来给出KKT条件
$\begin{cases} 1-\xi_i-y_i(w^Tx_i+b)\leq 0\\ \alpha_i(1-\xi_i-y_i(w^Tx_i+b))=0\\ \xi_i\geq 0\\ \alpha_i\geq0\\ \mu_i\geq0\\ \mu_i\xi_i=0 \tag{28} \end{cases}$

=>
$\begin{cases} 1-\xi_i-y_if(x_i)\leq 0\\ \alpha_i(1-\xi_i-y_if(x_i))=0\\ \xi_i\geq 0\\ \alpha_i\geq0\\ \mu_i\geq0\\ \mu_i\xi_i=0 \tag{29} \end{cases}$

对于任意样本，总有 $\alpha_i=0$ or $1-\xi_i-y_if(x_i)=0$

如果 $\alpha_i=0$ ，对 $f (x)$ 没有影响，如果 $\alpha_i>0$ ，那么 $1-\xi_i-y_if(x_i)=0$ ，那么该样本为支持向量
有式（26）可知，若 $\alpha_i<C$ ，则 $\mu_i>0$ ，进而 $\xi_i=0$ ，即该样本在最大间隔边界上。
若 $\alpha_i=C$ ，则 $\mu_i=0$ ，此时 $\xi_i\leq1$ ，则该样本落在最大间隔边界内部，若 $\xi_i>1$ ，则该样本被错误分类