西瓜书《学习笔记》-第六章支持向量机

最新推荐文章于 2022-03-16 15:50:55 发布

二进制多了2

最新推荐文章于 2022-03-16 15:50:55 发布

阅读量218

点赞数 1

分类专栏：笔记机器学习文章标签：人工智能支持向量机机器学习

本文链接：https://blog.csdn.net/lmq3238466/article/details/106013806

版权

笔记同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

支持向量机（Support Vector Machine简称SVM）感觉是一个很难理解的方面，他的过程重点是在数学建模的过程。我在这次笔记中对概念性的知识大概描述，对数学推导的过程着重学习。

SVM简介

支持向量机SVM是Cortes和Vapnik与1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，比那个能够推广到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。 [1]
总结：支持向量机其实就是寻找一个平面划分（在二位平面就是找界限；在三位空间就是找面），可以以这个为界限把训练的样本划分开来。

在这里插入图片描述

1.间隔与支持向量

在这里插入图片描述
在样本空间中，我们用线性方程来描述超平面划分：
$w^Tx+b=0$
那么我们如何来寻找最适合的超平面划分呢？他首先要符合的条件是这条线要在两类训练样本的“正中间”。在中学我们学习过线性方程的位置是由 $w, b$ 决定的，那么要找到最合适的一组 $w, b$ （且平行），使他们的距离最大（容错率最大），中间的平面就是我们所要的超平面划分。（说的也许有些啰嗦。。。可以看着下面的图进行理解）
我们先将 $w^Tx+b≥1$ 的部分记为正例（+1）； $w^Tx+b≤1$ 的称为负例（-1）。为了方便表示，我们引入了 $y_i$ 来表示+1、-1。
$y_i(w^Tx_i+b)-1≥0·················①$
注：当为正例时， $y_i=+1$ ；当为负例时， $y_i=-1$

我们开始计算正负例子到超平面的距离：
$width=(x_+-x_-)\frac{w}{||w||}$
$→width=\frac{wx_+-wx_-}{||w||}$
$当wx_+时 y_i=+1 由①得w^Tx_++b≥1即w^Tx_+≥1-b$

$当wx_-时 y_i=-1 由①得w^Tx_-+b≤-1 即-(w^Tx_-)≥1+b$
$∴width=\frac{wx_+-wx_-}{||w||}≥\frac{1-b+(1+b)}{||w||}=\frac{2}{||w||}$
我们称上式中的width为间隔，设为 $r$
$即r=\frac{2}{||w||}$

在这里插入图片描述 $r=\frac{2}{||w||}$

我们要寻找最大的间隔（margin），就是寻找 $w, b$ 使得 $r$ 最大。欲使 $r$ 最大，就要让 $w$ 最小或 $r=\frac{||w||^2}{2}$ 最大。（为什么是 $w||^2呢？是因为方便进行求导$ ）

对偶问题

对偶问题就是用来解决大间隔划分超平面所对应的模型。在刚才的式子中添加拉格朗日乘子 $a_i≥0$ ，则该问题的拉格朗日函数可写为：
$L(w,b,a)=\frac{1}{2}||w||^2+\sum_{i=1}^ma_i(1-y_i(w^Tx_i+b))$
首先对拉格朗日函数 $L (w, b, a)$ 求偏导数：
$\frac{\alpha L}{\alpha w}=||w||+\sum_{i=1}^ma_iy_ix_i$
令 $\frac{\alpha L}{\alpha w}=0$ 则 $||w||=\sum_{i=1}^ma_iy_ix_i$

$\frac{\alpha L}{\alpha b}=\sum_{i=1}^ma_iy_i$
令 $\frac{\alpha L}{\alpha b}=0$ 则 $\sum_{i=1}^ma_iy_i=0$
将上面的两个式子带回拉格朗日函数：
$L(w,b,a)=\frac{1}{2}w^Tw+\sum_{i=1}^m [ a_i -a_iy_i(w^Tx_i+b)]$
$=\frac{1}{2}w^Tw+\sum_{i=1}^ma_i-\sum_{i=1}^ma_iy_iw^Tx_i-\sum_{i=1}^ma_iy_ib$
$\frac{1}{2}w^T\sum_{i=1}^ma_iy_ix_i+\sum_{i=1}^ma_i-\sum_{i=1}^ma_iy_iw^Tx_i-\sum_{i=1}^ma_iy_ib$
$\frac{1}{2}w^T\sum_{i=1}^ma_iy_ix_i-b\sum_{i=1}^ma_iy_i+\sum_{i=1}^ma_i$
$=\sum_{i=1}^ma_i- \frac{1}{2}w^T\sum_{i=1}^ma_iy_ix_i$
$=\sum_{i=1}^ma_i-\frac{1}{2}\sum_{i,j=1}^ma_ia_jy_iy_jx_i^Tx_j$
这样就推出了对偶问题的相关性问题：
$max_{\alpha}\sum_{i=1}^ma_i-\frac{1}{2}\sum_{i,j=1}^ma_ia_jy_iy_jx_i^Tx_j$