支持向量机是一种二分类模型,他的基本模型是定义在特种空间上的间隔最大的线性分类器,间隔最大化使他有别于感知机。支持向量机还包括核技巧,这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化问题。
当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称硬间隔支持向量机。当训练数据近似可分时,通过软间隔最大化,,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机。当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。
一 线性可分支持向量机
y(w * x + b) 来表示分类的正确性及确信度,这就是函数间隔的概念。
对分离的超平面的法向量W加某些约束,如规范化 ||w|| = 1,使得间隔是确定的,这时函数间隔称为几何间隔。
线性可分分离超平面有无穷多个,但是几何间隔最大的分离超平面是唯一的。
间隔最大化的直观解释是:对悬链数据集找到几何间隔最大的超平面意味着一充分大的确信度对训练数据进行分类。
在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。
在决定分离超平面时只有支持向量起作用,而其他实例点并不起作用。如果移动支持向量将改变所求的解;但是如果在间隔边界以外移动其他实例点,甚至去掉这些点,则解是不会改变的。所以支持向量机是由很少的重要的训练样本确定。
通过拉格朗日对偶性得到原始问题的最优解,这就是线性可分支持向量机的对偶算法。这样做的有点,一是对偶问题往往更容易求解;二是自然引入核函数,进而推广到非线性分类问题。