梯度下降与支持向量机

威化饼的一隅

已于 2022-07-20 20:16:32 修改

阅读量1.3k

点赞数

分类专栏：杂项文章标签：支持向量机梯度下降人工智能 SVM SGD

于 2021-05-30 14:23:48 首次发布

本文链接：https://blog.csdn.net/qq_37734256/article/details/117373841

版权

杂项专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言

支持向量机解优化有两种形式，通常采用序列最小化（SMO）算法来解优化，本文总结基于随机梯度下降（SGD）解优化方法。

线性可分SVM

如果数据集是完全线性可分的，可以构造最大硬间隔的线性可分支持向量机，如果只关心 $sign(\cdot)$ 不关心正负的程度，要求每个样本的函数间隔 $y_iw^{T}x_i \geq1$ ，其优化式为：
$\begin{aligned} &\mathop{\min}\limits_{w} \frac{1}{2}w^{T}w \\ & s.t. \;\forall i, \;y_iw^{T}x_i \geq1 \end{aligned}$

线性SVM

如果数据集是大致线性可分的，对每个样本引入一个松弛变量 $\xi_i \geq 0$ ，要求每个样本的函数间隔 $y_iW^{T}x_i \geq1-\xi_i$ ，可以构造线性支持向量机，其优化式为：
$\begin{aligned} &\mathop{\min}\limits_{w} \frac{1}{2}w^{T}w + C \sum_{i}^{N}\xi_i \\ s.t.\;& \forall i, \;y_iw^{T}x_i \geq1-\xi_i \\ & \xi_i \geq 0 \end{aligned}$

hinge-loss

可以把线性SVM的优化目标重写为Hinge-loss的形式：
$\mathop{\min}\limits_{w} \frac{1}{2}w^{T}w + C \sum_{i}^{N} max (0,1-y_iw^{T}x_i )$

前半部分为最大化间隔，后半部分为预测的惩罚项Hinge-loss： $L_{Hinge}(y,x,w)=max(0,1-y_iw^{T}x_i )$

样本点被正确分类，且在间隔之外，惩罚为0；
样本点没被正确分类，惩罚为 $1-y_iw^{T}x_i$ ；
样本点被正确分类，但是在间隔之内，惩罚为 $1-y_iw^{T}x_i$

SVM-SGD

$f (x)$ 是凸函数，如果对于任意的定义域中的变量 $u, v$ ，及任意的 $\lambda \in [0,1]$ ，有 $f(\lambda u+(1-\lambda)v)\leq \lambda f(u)+(1-\lambda)f(v)$ ，也就是函数取两点连线，两点间的函数图像在连线之下；或者说，每个点的切线都在函数值之下。 $x$ 是凸函数最小值点的必要条件是， $\nabla f(x)=0$ 。

在这里插入图片描述
使用随机梯度下降来求解最大间隔SVM，优化的目标函数为 $J(w)=\mathop{\min}\limits_{w} \frac{1}{2}w^{T}w + C \sum_{i}^{N} max (0,1-y_iw^{T}x_i )$ ，目标函数为凸函数，在学习率足够小时，能获得最优解。
但是Hinge-loss是不可微的，可以使用次梯度，对应的是次切线。次切线是在一个点上在函数值之下的任意一条线，次梯度是这条线的斜率。
在这里插入图片描述
对于支持向量机而言， $J (w)$ 的次梯度为
$\nabla J(w)=\left\{ \begin{aligned} &w \quad if \; max (0,1-y_iw^{T}x_i )=0\\ &w-Cy_ix_i , \quad otherwise \\ \end{aligned} \right.$
所以，对应的梯度下降算法为：

相应的，使用SGD解kernel SVM如下，预测的时候需要使用显示的映射函数 $\psi(\cdot)$ ，不像SMO求解完之后不需要显示映射：
在这里插入图片描述

参考文献

[1]Vivek Srikumar, Machine Learning CS 5350/6350, Fall 2020. https://svivek.com/teaching/machine-learning/fall2020/lectures/svm.html
[2] Shai Shalev-Shwartz, Introduction to Machine Learning (67577) , Lecture 8. https://www.cs.huji.ac.il/~shais/Lectures2014/lecture8.pdf