吃瓜教程 | Datawhale-2021.10打卡（Task05）

最新推荐文章于 2024-09-04 17:48:38 发布

喝茶用勺子

最新推荐文章于 2024-09-04 17:48:38 发布

阅读量251

点赞数 2

分类专栏：吃瓜教程2021.10打卡文章标签：支持向量机机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43530769/article/details/121065421

版权

吃瓜教程2021.10打卡专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了支持向量机(SVM)的核心概念，包括如何通过找寻最大间隔超平面实现线性可分数据的分类，对偶问题的转化及其优势，以及软间隔和正则化的引入以处理线性不可分情况。重点讨论了对偶问题的数学形式和常见替代损失函数。最后，提及了支持向量回归在拟合数据上的应用策略。

摘要由CSDN通过智能技术生成

第6章支持向量机

6.1 间隔与支持向量

给定一组线性可分的训练样本，分类学习的目的就是找到一个划分超平面，将不同类别的样本分开，但根据前5章的知识可知，每次训练得到的超平面可能都不相同，如下图所示

在这里插入图片描述

因此，支持向量机的作用：从几何角度出发，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面。相比于感知机，这个超平面的唯一的，且这个划分超平面所产生的分类结果是最鲁棒的，对未见示例的泛化能力最强。

样本空间中任易点 $\bm{x}$ 到超平面 $(\bm{\omega},b)$ 的距离可写为：

$r=\frac{|\bm{\omega}^{\rm{T}}\bm{x}+b|}{\|\bm{\omega}\|} \tag{6.2}$

对于式(6.2)的证明过程如下所示：

在这里插入图片描述

支持向量机（Support Vector Machine，简称SVM）的基本模型如下：

$\begin{aligned} \begin{cases} \underset{\bm{\omega},b}{\rm{min}} \quad \frac{1}{2}\|\bm{\omega}\|^{2} \\ {\rm{s.t.}} \quad y_{i}(\bm{\omega}^{\rm{T}}\bm{x}_{i}+b)\ge1, \qquad i=1,2,\dots,m \end{cases} \end{aligned} \tag{6.6}$

6.2 对偶问题

支持向量机（6.6）的对偶问题如下所示：

$\begin{aligned} \underset{\bm{\alpha}}{\rm{max}} \quad &\sum\limits_{i=1}^{m}\alpha_{i}-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}\bm{x}_{i}^{\rm{T}}\bm{x}_{j} \\ &{\rm{s.t.}} \quad \sum\limits_{i=1}^{m}\alpha_{i}y_{i}=0,\\ &\quad\qquad \alpha_{i}\ge0, \quad i=1,2,\dots,m \end{aligned} \tag{6.11}$

将支持向量机原问题转化为拉格朗日对偶问题求解主要有如下两个原因：

无论原问题是否为凸优化问题，对偶问题恒为凸优化问题，因为对偶函数恒为凹函数（加负号即可转化为凸函数）。而且原始问题的时间复杂度与特征维数成正比（若特征维数大，会导致出现维数灾难问题），而对偶问题和数据量成正比，当特征维数远高于数据量的时候，采用拉格朗日对偶问题求解更高校；
对偶问题能引入核函数，进而可推广到非线性分类问题。（最主要的原因）

6.4 软间隔与正则化

上述两小节只考虑样本为线性可分情形，而在现实任务中，线性不可分的情形才是最常见的，由此引出了软间隔。

从数学角度出发，软间隔就是允许部分样本不满足下式中的约束条件：

在最大化间隔的同时，不满足约束的样本尽可能少。于是软间隔的优化目标可写为：

$\underset{\bm{\omega},b}{\rm{min}} \quad \frac{1}{2}\|\bm{\omega}\|^{2}+C\sum\limits_{i=1}^{m}\ell_{0/1}(y_{i}(\bm{\omega}^{\rm{T}}\bm{x}_{i}+b)-1) \tag{6.29}$

其中 $C > 0$ 是一个可人为调节的参数， $\ell_{0/1}$ 是“0/1损失函数”

$\ell_{0/1}= \begin{cases} 1,\quad if z<0;\\ 0, \quad otherwise. \end{cases} \tag{6.30}$

由上式可知，当满足约束条件时，损失为0；不满足约束条件时，损失不为0。
当C取 $+\infty$ 时，为最小化目标函数式(6.29)，会迫使所有样本满足上述约束条件，进而导致所有样本的损失为0，使得软间隔问题退化为硬间隔问题。当C取有限值时，则允许一些样本不满足约束条件。

$\ell_{0/1}$ 非凸、非连续、存在不可导的点，因此常用如下三种常用的替代损失函数：

hinge损失： $\ell_{hinge}(z)=\rm{max}(0,1-z)$ ;
指数损失（exponential loss）： $\ell_{exp}(z)=\rm{exp}(-z)$ ;
对率损失（logistic loss）： $\ell_{log}(z)=\rm{log}(1+\rm{exp}(-z))$ ;

在这里插入图片描述

6.5 支持向量回归

相比于线性回归用一条线来拟合训练样本，支持向量回归（Support Vector Regression，简称SVR）而是采用一个以 $f(\bm{x})=\bm{\omega}^{\rm{T}}\bm{x}+b$ 为中心，宽度为 $2\epsilon$ 的间隔带，来拟合训练样本。

落在间隔带内的样本不计算损失，在间隔带外的样本则以偏离带子的距离作为损失，然后以最小化损失的方式迫使间隔带从样本最密集的地方（中心地带）穿过，进而达到拟合训练样本的目的。

在这里插入图片描述

参考文献

-《机器学习》，周志华著，清华大学出版社.

-《南瓜书》，Datawhale，南瓜书链接.

喝茶用勺子

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜教程 | Datawhale-2021.10打卡（Task05）

目录第6章支持向量机6.1 间隔与支持向量6.2 对偶问题6.4 软间隔与正则化6.5 支持向量回归参考文献第6章支持向量机6.1 间隔与支持向量给定一组线性可分的训练样本，分类学习的目的就是找到一个划分超平面，将不同类别的样本分开，但根据前5章的知识可知，每次训练得到的超平面可能都不相同，如下图所示因此，支持向量机的作用：从几何角度出发，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面。相比于感知机，这个超平面的唯一的，且这个划分超平面所产生的分类结果是最鲁棒的，
复制链接

扫一扫