最优间隔分类器 the Optimal Margin Classifier
在上一讲内容中,我们介绍了函数间隔和几何间隔,我们也对比了这两种间隔的差异。我们希望可以得到更小的几何间隔。一个直观的优化方程是
上述方程中γ即为几何间隔,注意到我们限定了||ω||=1,这表明几何间隔和函数间隔是相同的。但这一优化问题很难求解,因为它是非凸的,我们不能利用已有的优化程序进行求解。所以我们将优化问题转化为另一种方程,如下
此时我们将对||ω||的限制移入目标方程中,这是我们的目标方程实际上就是几何间隔,除以||ω||起到了归一化的作用。此时我们已经可以使用现成的程序求解,但这一优化问题包含了两个参数,γ和ω。显然参数越少求解越方便,我们希望有一种方法可以减少参数。由于我们几何间隔是我们希望得到的最小间隔,因此我们可以令其为1,显然我们也可以给出其他自己喜欢的定义,只需要预先说明即可。此时我们得到第三种公式(在几何间隔为1的条件下)
注意到我们从求目标函数的最大值转为求最小值,这是因为在原方程中ω位于分母的位置;同时我们求的值为1/2||ω||^2,这与||ω||的增减性相同,使用平方项是为了方便求导。此时的方程已经可以通过任意一种求解优化问题的算法解出,如二次规划算法。这一优化为题的解成为最优间隔分类器。
拉格朗日对偶 Lagrange Duality
假如我们要求解如下优化问题(注意到此时约束条件均为等式)
则我们可定义拉格朗日方程为