1.线性可分支持向量机与硬间隔最大化
我们的目标是通过一个超平面以最大置信度将两类样本分开。
首先定义一个超平面:w*x+b=0,其中w是法向量,x是样本的特征向量,b是截距。
为了使分类置信度最大,我们需要最大化离超平面最近的样本与超平面的距离,这里需要用到函数间隔和几何间隔的概念。
函数间隔:y*(w*x+b)
几何间隔 = (1 / ||w||) * 函数间隔,几何间隔即样本与超平面距离的最小值。
函数间隔的取值并不影响超平面的位置,因此为了简单起见,我们将函数间隔设为1,那么几何间隔就是1 / ||w||.
要最大化几何间隔,也就是最小化1/2 * ||w|| * ||w||(之所以写成平方的形式是为了后续求导的方便),同时满足约束条件:每个样本与超平面的函数间隔大于等于1。
以上带约束条件的最大化几何间隔的问题又叫做最优化问题,还是一个凸二次规划问题,求解该问题,得到w*和b*,也就得到了超平面方程,进而得到分类决策函数。
上述方法称为最大间隔法。
还有另外一种方法,这种方法并不直接求解以上凸二次规划问题(原始问题),而是将这个问题转化为拉格朗日对偶问题,然后求对偶问题的最优解α*,通过α*,求得原始问题的w*和b*,然后得到分类决策函数。这个分类决策函数需要计算输入向量x和训练向量xi的内积,这是后续引入基于核函数的非线性支持向量机的前提。
2.线性支持向量机与软间隔最大化
线性可分问题是最简单的,现实中我们往往遇到的是线性不可分问题,线性