1、线性支持向量机
线性可分支持向量机只适用于训练数据集线性可分的情况,而对于数据集接近线性可分的情况,利用线性可分支持向量机不可能找到一个最优分界面使得正类数据和负类数据完全分开,所以线性支持向量机这时就发挥了它的作用,它也是找到一个最优分界面,这个最优分界面允许少量的数据样本被分错,但绝大多数的样本都能够被正确分类。
假设给定特征空间上的一个训练数据集T={(x1, y1), (x2, y2), …, (xn, yn)}, xi∈Rn, yi∈{-1, +1}, i=1, 2, …, N。因为数据集T不是完全线性可分的,所以存在(xi, yi)使得函数间隔yi(w·xi+b)>=1不满足,为了解决这个问题可以给每个数据样本点引入一个松弛变量ξi(ξi>=0),使得函数间隔加上松弛变量后满足大于等于1。这样一来约束条件就变成了:yi(w·xi+b) >= 1-ξi。
只有被分错的数据样本点对应的ξi是大于1的,位于分界面上的数据点对应的ξi等于1,被正确分类且位于间隔之内的数据样本点对应的ξi是大于0小于1的,被正确分类且位于间隔之外的数据样本点对应的ξi是等于0的。所以说ξi相当于是数据样本点(xi, yi)的惩罚项,根据硬间隔最大化