在上一节中,我们给出了在线性可分情况下的优化问题:
最小化:
限制条件:yi[xi+b]
1(i=1~N)
在扩展到非线性可分的情况时,我们只需做一点小改动就可以。
最小化:+C
限制条件:yi[xi+b]
1-
0 (i=1~N)
上式中的C是事先设定好的参数, 为松弛变量。C
这一项称为正则项。
当足够大,yi[
xi+b]
1-
必定成立,并满足非线性可分。但是,又不能让
太大,以至于整个优化问题过于分散。所以在第一个式子中要加入正则项(惩罚项),C是一个超参数,需要认为设定,它控制了正则项的权重。
如果想要使SVM在非线性可分的情况下能得到更好的结果,加入松弛变量是不够的。
如图示的情况下,一个曲线会是更好的选择。但是SVM的求解过程是找到一条直线进行类的划分,为此SVM的作者想出了一个富有创造性的方法:将低维映射为高维,即x(x)。
维度越高,线性可分的几率就越大(可以理解为变相增加提取到的特征的数量,特征越多,两个分类就越有可能被分开)。
限制条件发生相应变化:yi[(xi)+b]
1-
0 (i=1~N)
那么,如果(x)是无限维的,效果岂不是相当好。
可是,在 yi[(xi)+b]
1-
这个式子中,我们所要求的
和
(xi)是相同维度的,那么
将会变成不可解。
提出如下观点:
我们可以不知道无限维映射(xi)的显示表达式,我们只要知道一个核函数K(x1,x2)=
,使 yi[
(xi)+b]
1-
仍可解。
下一节,我们将讨论原问题与对偶问题的转化,以及如何利用核函数来解决无限维的(x)的问题。