小白学机器学习西瓜书-第六章支持向量机(2)

最新推荐文章于 2024-07-18 23:59:01 发布

顾耒之

最新推荐文章于 2024-07-18 23:59:01 发布

阅读量91

点赞数

分类专栏：机器学习西瓜书文章标签：机器学习支持向量机算法

本文链接：https://blog.csdn.net/jiang1350/article/details/125722620

版权

机器学习西瓜书专栏收录该内容

8 篇文章 2 订阅

订阅专栏

小白学机器学习西瓜书-第六章支持向量机2

6.4 基本型
6.5 对偶问题

上次我们讲到我们用数学式子表达了我们要求的超平面
$\max_{w,b}\frac{y_{min}(w^Tx_{min}+b)}{\mid\mid w\mid\mid} \tag{8}$
s.t. $y_i(w^Tx_i+b)\geq y_{min}(w^Tx_{min}+b)$

6.4 基本型

由于若求得了最优解 $w^*,b^*)$ ，那么 $(\alpha w^*,\alpha b^*),\alpha>0$ 也必然是其中的最优解，因此，我们令
$y_{min}(w^Tx_{min}+b)=1\tag{9}$

使得存在唯一的最优解 $w^*,b^*)$

因此式（8）变为
$\max_{w,b}\frac{1}{\mid\mid w\mid\mid} \tag{9}$

s.t. $y_i(w^Tx_i+b)\geq 1$

由于最小化比最大化好求以及避免出现根号等原因，我们可以再次改写式（9）
$\min_{w,b}\frac{1}{2}\mid\mid w\mid\mid^2 \tag{10}$

s.t. $y_i(w^Tx_i+b)\geq 1$

这就是求解支持向量机问题的基本型。

6.5 对偶问题

这里我们需要用到约束优化中的寻找对偶问题以及利用KKT条件求解，可以参考链接link：对偶问题及KKT条件

我们根据式（10）的主问题写拉格朗日函数
$L(w,b,\alpha)=\frac{1}{2}\mid\mid w\mid\mid^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))\tag{11}$

其中 $\alpha=(\alpha_1;\alpha_2,...,\alpha_m)$ 为拉格朗日乘子，接下来我们要求其关于 $w, b$ 的最小值，由于其为凸函数，所以我们对其分别求偏导

首先令 $L(w,b,\alpha)$ 对w和b求偏导。

1、先对w求偏导：
$\begin{aligned} \frac{\partial L}{\partial w}&=\frac{\partial (\frac{1}{2}\mid\mid w\mid\mid^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b)))}{\partial w}\\ &=\frac{\partial (\frac{1}{2}w^Tw+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b)))}{\partial w}\\ &=\frac{1}{2}\times 2Iw+\sum_{i=1}^m\alpha_i (-y_i)x_i\\ &=w-\sum_{i=1}^m\alpha_i y_ix_i \tag{12} \end{aligned}$
令其为0，
$w=\sum_{i=1}^m\alpha_i y_ix_i\tag{13}$

2、对b求偏导
$\begin{aligned} \frac{\partial L}{\partial b}&=\frac{\partial (\frac{1}{2}\mid\mid w\mid\mid^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b)))}{\partial b}\\ &=-\sum_{i=1}^m\alpha_i y_i\\ \tag{14} \end{aligned}$
令其为0，
$\sum_{i=1}^m\alpha_i y_i=0\tag{15}$

将式（13）和式（14）带入拉格朗日函数，即为基本型的拉格朗日对偶函数

$L(w,b,\alpha)=\frac{1}{2}\mid\mid w\mid\mid^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))\tag{11}$

$w=\sum_{i=1}^m\alpha_i y_ix_i\tag{13}$

$\sum_{i=1}^m\alpha_i y_i=0\tag{15}$

$\begin{aligned} L(w,b,\alpha)&=\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_jx_i^Tx_j+\sum_{i=1}^m\alpha_i-\sum_{i=1}^m\alpha_iy_ib\\&-\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ &=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_jx_i^Tx_j+\sum_{i=1}^m\alpha_i\\ \tag{16} \end{aligned}$

因此，基本型的对偶问题即为
$\qquad \qquad\max(\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_jx_i^Tx_j)\\ s.t.\quad \sum_{i=1}^m\alpha_i y_i=0\\ \quad \quad \quad \quad \quad\quad \alpha_i \geq 0,i=1,2...,m \tag{17}$

解出 $\alpha$ 后，代入求出w和b即可
函数可写为
$\begin{aligned} f(x)&=w^Tx+b\\ &=\sum_{i=1}^m\alpha_i y_ix_i^Tx+b \tag{18} \end{aligned}$

由于主问题中存在不等式约束，所以还需要满足KKT条件
$\begin{cases} \alpha_i \geq 0 \\ y_i(w^Tx_i+b)\geq 1\\ \alpha_i(y_i(w^Tx_i+b)-1)=0 \tag{19} \end{cases}$

=》
$\begin{cases} \alpha_i \geq 0 \\ y_if(x_i)\geq 1\\ \alpha_i(y_if(x_i)-1)=0 \tag{20} \end{cases}$
从上式可以做一个简单的推导，对任意训练样本，总有 $\alpha_i=0$ or $y_if(x_i)=1$
如果 $\alpha_i=0$ ，那么根据式（18），他不会对函数产生影响，
如果 $\alpha_i>0$ ，那么 $y_if(x_i)=1$ ，即该样本点位于最大间隔边界上。
这是支持向量机的一个重要性质，即大部分的训练样本都不保留，模型仅和支持向量有关