*定义:支持向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义再特征空间上的间隔最大的线性分类器。
分类:支持向量机学习方法包含由简至翻的模型:线性可分支持向量机;线性支持向量机及非线性支持向量机。
方法:当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔最大化;当训练数据近似线性可分时,通过软件间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧机软件隔最大化,学习型非线性支持向量机。
1.线性可分支持向量机与硬间隔最大化
-1.1线性可分支持向量机
-1.2 函数间隔和几何间隔
-1.3间隔最大化
-1.4支持向量和间隔边界
1.1线性可分支持向量机:
假设给定一个特征空间上的训练
,其中,为第i隔特征向量,为的类标记,当=+1时,称为正实例;当=-1时称为负实例 称为样本点。
假设训练数据集时线性可分的,学习的目的是找到一个超平面,方程为w.x+b =0,由法向量w和截距b决定,可用(w,b)来表示。分离超平面的解有无数个,线性可分支持向量机利用间隔最大化求最优分离超平面,这是解是唯一的。
1.2 函数间隔和几何间隔
- 1.2.1函数间隔:
函数间隔定义:对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点函数间隔为:式1.2.1.1
定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点的函数间隔最小值,即
选择超平面时只用函数间隔是不够的,当w,b等比例缩放时,虽然超平面不变,但是明显函数间隔等比例缩放了。
eg:,当同乘2,w.X+b的值扩大两倍,即函数距离扩大两倍,但是超平面不变。
1.2.2几何间隔
图1
如图1所示,给出了超平面(w,b),点A表示某一实例,其类标记为=+1,点A与超平面(w,b)的距离线段AB给出,记作,w为超平面的法向量,所以
几何间隔定义:对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点的几何间隔为式1.2.2.1
定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点的几何间隔最小值即:由式1.2.1.1和式1.2.2.1可得函数距离和几何距离的关系:
1.3间隔最大化
1.2中求得 函数间隔为:
几何间隔为:
间隔最大化的意义在于不仅将正负实例点分开,而且对最难分的实例点(离超平面距离最近的点)也有足够的确信度将他们分开。
最大间隔分离超平面:
由1.2中得几何间距和函数间距得关系可以转换为求:
由于函数间隔的取值并不影响最优化问题的解(不懂),为了方便起见设=1,带入得即求最大化,和最小化是等价的
于是即求: 式1.3.1
1.4 支持向量和间隔边界
图1.4.1
如图1.4.1虚线上的点称为支持向量,我们的目的是为了让两条虚线的距离最大,即让分类器由更大的确信度。虚线上的点即为式1.31中不等式成立的点
要求虚线点的方程,满足线性约束条件 式1.4.1
对式1.3.1构建拉格朗日函数式1.4.2
式1.4.3
式1.4.3最后一步是转化为求的值,因为这样来求比容易求,求偏导的时候把给约了,所以转换为对偶问题来求解:
式1.4.4
带入到式1.4.2得:
即
求
等价与对偶问题:
式1.4.5
定理:设是对对偶最优化问题式1.4.5的解,