西瓜书第6章之SVM_1

最新推荐文章于 2022-10-23 19:43:46 发布

su_poplar

最新推荐文章于 2022-10-23 19:43:46 发布

阅读量527

点赞数

分类专栏：西瓜书总结文章标签：机器学习西瓜书 SVM公式推导手推SVM 拉格朗日乘子式

本文链接：https://blog.csdn.net/qq_34553043/article/details/82287491

版权

西瓜书总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

西瓜书第6章之SVM_1

代码

SVM基本形式

在这里插入图片描述

$|x-x_1|\cos(\theta)=|x-x_1|\dfrac{|(x-x_1)w|}{|x-x_1||w|}=\dfrac{|wx-wx_1|}{|w|}=\dfrac{|wx+b|}{|w|}$
$\dfrac{1}{|w|} |wx+b|$
去绝对值
$=\dfrac{1}{|w|} \sum_{n=1}^{N} y_n(wx_n+b)$

令 $y_n(wx_n+b)=1$ ,则原式可变为 $=max_{w,b} min_{n} \frac{1}{|w|}$ $s.t. y_n(wx_n+b)=1$

变化为求最小值： $min_{w,b} max_{n} \frac{1}{2}w^Tw$ $s.t. y_n(wx_n+b)=1$
那么这个就是SVM的基本形式，即取最近的点距离最大。

拉格朗日乘子式

使用拉格朗日乘子式好处：1、对偶问题更容易求解。2、引入核函数(下面式子的x替换为z代表核变化)。
在这里插入图片描述

h表示约束函数，f表示优化函数。
h在A处的梯度与f在A处的梯度并不一致，所以A并非是最优解。因为h在A处的梯度除了与f在A处的梯度一致的分量外，还有一个向B运动的分量，然后沿此方向继续寻找最优解。当到达B处时，发现h与f在B处的梯度方向是一致的，那么B就是最优解。也就存在 $\lambda h(x)+f(x)=0(\lambda !=0，最优解处求导为0)$ 。因此定义拉格朗日函数为 $L=f(x)+\lambda h(x)$
已知h(x)<=0。
当h(x)<0时，那么最优解在f(x)最中心处，等价于 $\lambda$ =0可以使用梯度下降等方法求出最优解。
当h(x)=0时，因为h(x)与f(x)的梯度方向相反，就存在 $\lambda$ >0，使得 $\lambda h(x)+f(x)=0$ 。
对以上两步总结为 $\lambda h(x)=0$
$KKT\begin{cases} h(x)\leq 0\\ \lambda \geq 0 \\ \lambda h(x) = 0 \end{cases}$
以上便是拉格朗日乘子式的过程。

对偶

$min_{w,b} max_{n} \frac{1}{2}w^Tw$ $s.t. y_n(wx_n+b)=1$

因为最大数值中最小的那个值是大于等于最小数值中最大的那个值，即

$min_{w,b} max_{n}L \geq max_{n} min_{w,b}L$

因此SVM的优化函数可表达为 $max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw$ $s.t. y_n(wx_n+b)=1$

根据拉格朗日乘子式可得：
$max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw + \sum_{n=1}^{N} \lambda_n (1-y_n(w^T z_n + b))(式1)$
$\begin{cases} \lambda_n \geq 0 \\ 1 - y_n(w^T z_n + b) \leq 0 \\ \lambda_n (1- y_n(w^T z + b)) = 0 \end{cases}$
$\dfrac{\partial L}{\partial b} = \sum_{n=1}^{N}\lambda_n y_n = 0(式2)$
将式2带入式1中得：
$max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw + \sum_{n=1}^{N} \lambda_n (1-y_n(w^T z_n))(式2)$

$\dfrac{\partial L}{\partial w} = w - \sum_{n=1}^{N}\lambda_ny_nz_n = 0(式3)$
将式3带入式1中得：
$max_{\lambda_n} min_{w,b} -\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{M}\lambda_n \lambda_m y_n y_m z_n z_m + \sum_{n=1}^{N}\lambda_n$
即:
$max_{\lambda_n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{M}\lambda_n \lambda_m y_n y_m z_n z_m + \sum_{n=1}^{N}\lambda_n$
转换成最小化得:
$min_{\lambda_n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{M}\lambda_n \lambda_m y_n y_m z_n z_m + \sum_{n=1}^{N}\lambda_n$
$\begin{cases} \lambda_n \geq 0 \\ 1 - y_n(w^T z_n + b) \leq 0 \\ \lambda_n (1- y_n(w^T z_n + b)) = 0 \\ \sum_{n=1}^{N}\lambda_n y_n=0(对b求导得到) \\ w = \sum_{n=1}^{N}\lambda_n y_n z_n(对w求导得到) \end{cases}$
当 $\lambda_n = 0时$ ，根据 $\lambda_n (1- y_n(w^T z_n + b)) = 0$ 可得到 $y_n(w^T z_n + b) \neq 0$ ，而又因为 $y_n(w^T z_n + b) \leq 0$ ，所以 $1 - y_n(w^T z_n + b) < 0$ ，即该点到分类超平面距离小于1。

当 $\lambda_n>0$ 时，根据 $\lambda_n (1- y_n(w^T z_n + b)) = 0$ 推出 $1= y_n(w^T z_n + b)$ ，那么这个点就是支持向量点。

软间隔(避免过拟合)

增加一个 $\zeta$ 代表犯错程度。当 $\zeta$ =0时，没有犯错。
那么优化函数可以表达成：
$max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw + C\sum_{n=1}^{N} \zeta_n$
$\begin{cases} \zeta_n \geq 0 \\ y_n(w^T z_n + b) \geq 1 - \zeta_n \\ \end{cases}$
使用拉格朗日乘子式:
$max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw + C\sum_{n=1}^{N} \zeta_n - \sum_{n=1}^{N} \lambda_n (1-\zeta_n - y_n(w^T z_n + b)) + \sum_{n=1}^{N} \beta_n (-\zeta_n)(式4)$

$\dfrac{\partial L}{\partial \zeta_n} = 0 = C - \lambda_n - \beta_n$
推出：
$\lambda_n = \beta_n \geq 0(式5)$
因此：
$\leq \lambda_n \leq C$
将式5带入式4中得：
$max_{\lambda_n} min_{w,b} \frac{1}{2}w^Tw - \sum_{n=1}^{N} \lambda_n (1-y_n(w^T z_n + b))(式6)$
与式1一致。
同样的式6分别对w和b求导，得到
$\sum_{n=1}^{N}\lambda_n y_n=0\\ w = \sum_{n=1}^{N}\lambda_n y_n z_n$
代入到式6中得到：
$min_{\lambda_n}\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{M}\lambda_n \lambda_m y_n y_m z_n z_m - \sum_{n=1}^{N}\lambda_n$
$\begin{cases} 0 \leq \lambda_n \leq C \\ y_n(w^T z_n + b) \geq 1 - \zeta_n \\ \lambda_n (1- \zeta_n - y_n(w^T z_n + b)) = 0 \\ \sum_{n=1}^{N}\lambda_n y_n=0 \\ w = \sum_{n=1}^{N}\lambda_n y_n z_n \\ \beta_n (-\zeta_n) = (C - \lambda_n)\zeta_n = 0 \end{cases}$
求解w和b：
$\sum_{n=1}^{N}\lambda_ny_nz_n$
当 $\leq \lambda_n \leq C$ 即支持向量，那么因为 $\lambda_n)\zeta_n = 0$ ，所以推出 $\zeta_n$ =0。对 $\lambda_n (1- \zeta_n - y_n(w^T z + b)) = 0$ 推出 $y_n(w^T z_n + b)=1$ 。这个点就是支持向量点，并且 $y_i^2 = 1$ 。得出

$y_s - w^T z_s = y_s - (\sum_{n=1}^{N}\lambda_n y_n z_n)^T z_s$
其中s表示支持向量点。
当 $\lambda_n = C$ 时，根据 $\lambda_n)\zeta_n = 0$ 推出 $\zeta_n \neq 0$ ，且又因为 $\lambda_n (1- \zeta_n - y_n(w^T z_n + b)) = 0$ ，得出 $\zeta_n - y_n(w^T z_n + b) = 0$ ，所以得到 $y_n(w^T z_n + b) = 1 - \zeta_n \leq 1$ 。表示错误点，与分类超平面距离小于1。