SVM学习笔记

最新推荐文章于 2020-08-06 09:21:09 发布

a15819095733

最新推荐文章于 2020-08-06 09:21:09 发布

阅读量232

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/R-dog/p/9698606.html

版权

关于统计学习方法中李航SVM学习笔记：

支持向量机（support vector machines，SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；关于感知机的介绍有时间再做。

关于支持向量机中的内容比较多，本文关于李航统计学习中关于支持向量机的顺序进行整理，即：

硬间隔支持向量机（函数间隔、几何间隔、间隔最大化、支持向量与支持边界、对偶算法）
软间隔支持向量机（惩罚系数、对偶算法、支持向量、合页损失函数）
非线性支持向量机（核技巧）
SMO算法

1.硬间隔支持向量机

个人理解硬间隔支持向量机即训练数据集是线性可分的，存在一个超平面可以将两类样本完全分开，其损失函数为0.其学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的累。分离超平面对英语方程w*x+b=0，它由法向量w和截距b决定可用（w,b）来表示。一般地，当训练数据集线性可分时，存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略，求得分离超平面，这样的超平面有无穷多个，线性可分支持向量机利用间隔最大化求最优分离超平面，此超平存在而且唯一。

1.1函数间隔和几何间隔

函数间隔定义：对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi，yi）的函数间隔为：

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点的函数间隔之最小值，即

函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变w和b,例如将它们改为2w和2b,超平面并没有改变，但函数间隔却成为原来的2倍。这一事实启示我们，可以对分离超平面的法向量w加某些约束，如规范化，||w||=1,使得间隔是确定的。这时函数间隔成为几何间隔（geometric margin)。

定义(几何间隔）对于给定的训练数据集T和超平面(w，b),定义超平面(w，b)关于样本点的几何间隔为

定义超平面(w，b)关于训练数据集T的几何间隔为超平面(w，b)关于T中所有样本点的几何间隔之最小值，即

超平面(w，b）关于样本点的几何间隔一般是实例点到超平面的带符号的距离（signed distance),当样本点被超平面正确分类时就是实例点到超平面的距离。

从函数间隔和几何间隔的定义可知，函数间隔和几何间隔有下面的关系

如果||w||=l，那么函数间隔和几何间隔相等。如果超平面参数w和b成比例地改变（超平面没有改变)，函数间隔也按此比例改变，而几何间隔不变。

1.2间隔最大化

对线性可分的训练数据集而言，线性可分分离超平面有无穷多个（等价于感知机)，但是几何间隔最大的分离超平面是唯一的。

间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

定义 (线性可分支持向量机）给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为

以及相应的分类决策函数

称为线性可分支持向量机。

最大间隔分离超平面

下面考虑如何求得一个几何间隔最大的分离超平面，即最大间隔分离超平面。具体地，这个问题可以表示为下面的约束最优化问题：

考虑几何间隔和函数间隔的关系式,可将这个问题改写为

由于函数间隔的取值并不影响最优化问题的解，所以该问题等价于

综上所述，就有下面的线性可分支持向量机的学习算法——最大间隔法(maximum margin method)。

算法(线性可分支持向量机学习算法——最大间隔法）

2.软间隔支持向量机

当对于线性不可分的训练数据采用并不能采用上述的方法，其不等式约束不能都成立，因此修改硬间隔最大化，使其变为软间隔最大化。

线性不可分意味着样本点不能满足函数间隔大于等于1的约束条件，为了解决这个问题，对每个样本点引进一个松弛变量，使函数间隔加上松弛变量大于等于1.这样约束条件变为：

同时，对每个松弛变量支付一个代价目标函数由原来的变成：

这里，C>0成为惩罚参数，一般由应用问题决定，C值大时对误分类的惩罚增大，C值小时对误分类的惩罚减小（为什么会在损失函数上面加这样一个惩罚项，对误分类的样本的影响体现在哪儿），最小化目标函数包含两层含义，使尽量减小即间隔尽量大，同时使误分类点的个数尽量小，C是调和二者的系数（c的作用究竟体现在哪儿？）