1、线性可分支持向量机与硬间隔最大化
1.1线性可分支持向量机
当训练数据集线性可分时,存在无穷个分类超平面。感知机利用误分类最小的策略,求得分类超平面;线性可分支持向量机利用间隔最大化求最有分离超平面,此时解是唯一的。
1.2函数间隔和几何间隔
函数间隔:
在超平面确定的情况下,能够相对的表示点距离超平面的远近,的符号与类标记的符号是否一致表示分类是否正确。
所以表示分类的正确性及确信度,称为函数间隔。
函数间隔定义:
对于给定的训练集,和超平面,定义超平面关于样本点的函数间隔为
定义超平面关于数据集的函数间隔为超平面关于中所有样本点的函数间隔之最小值,即
在选择分离超平面时,只有函数间隔还不够,因为只要成比例地改变和,例如将他们改为和,超平面并没有改变,但是函数间隔却变为原来的两倍。
因此,需要对超平面的法向量加以约束,如规范化,使得间隔时确定的,这时函数间隔成为几何间隔。
当样本点与超平面被正确分类时,点与超平面的距离是
其中为的范数。
则有,几何间隔定义:
给定的训练数据集和超平面,定义超平面关于样本点的几何间隔为
定义,超平面关于数据集的几何间隔为超平面关于数据集中所有样本点的几何间隔之最小值
超平面对于样本点的几何间隔是实例点到超平面的带符号的距离,当样本点被超平面正确分类时,就是实例点到超平面的距离。
函数间隔和几何间隔有如下关系:
如果=1,那么函数间隔和几何间隔相等,当超平面参数成比例地改变,函数间隔也按比例改变,而几何间隔不变
1.3间隔最大化
支持向量机的基本思想:求解能够正确划分训练集并且几何间隔最大的分离超平面。
这里的间隔最大化称为硬间隔最大化。
间隔最大化的直观解释:对训练数据而言,找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类,也就是,不仅将训练数据分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开,这样的超平面应该对未知的新实例有很好的分类预测能力。
关于支持向量和间隔边界
在线性可分的情况下,训练集中的样本点,与分离超平面距离最近的样本点的实例称为支持向量,支持向量是使下式成立的点
对于 的正例点,支持向量在超平面
对于 的正例点,支持向量在超平面
如下图所示,在 和 上的点就是支持向量
以上内容为线性可分支持向量机与硬间隔最大化。