一、间隔与支持向量
在样本空间中,划分超平面可通过如下线性方程来描述:
其中w = (;
; . . .;
)为法向量,决定了超平面的方向; b为位移项,决定了超平面与原点之间的距离.显然,划分超平面可被法向量w和位移b确定,下面我们将其记为(w,b).样本空间中任意点x到超平面(w,b)的距离可写为
令:
如下图所示,距离超平面最近的这几个训练样本点使上式的等号成立,它们被称为“支持向量”(support vector)
“间隔”:两个异类支持向量到超平面的距离之和
欲找到具有“最大间隔”(maximum margin)的划分超平面,也就是要找到能满足式(6.3)中约束的参数w和b,使得最大,即
为了最大化间隔,仅需最大化,这等价于最小化
.
这就是支持向量机(Support Vector Machine,简称SVM)的基本型.
二、对偶问题
对上式使用拉格朗日乘子法可得到其“对偶问题”(dual problem)。具体来说,对上式的每条约束添加拉格朗日乘子 ≥0,则该问题的拉格朗日函数可写为
其中α =(;
;.. . ;
).令L(
, b,
)对
和b的偏导为零可得
代入得对偶函数:
解出α后,求出与b即可得到模型
支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关.
SMO (Sequential Minimal Optimization):不断执行如下两个步骤直至收敛:
- 选取一对需更新的变量
和
;
- 固定
和
以外的参数,求解对偶问题式获得更新后的
和
.
SMO先选取违背KKT条件程度最大的变量. 使选取的两变量所对应样本之间的间隔最大.
三、核函数
将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分.
令表示将
映射后的特征向量,于是,在特征空间中划分超平面所对应的模型可表示为
其中 w和b是模型参数.,有
其对偶问题是:
设想:
上式重写为
求解后即可得到
这里的函数 就是"核函数" (kernel function) . 上式显示出模型最优解可通过训练样本的核函数展开,这一展式亦称“支持向量展式”(supportvector expansion).
四、软间隔和正则化
在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分
缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此,要引入“软间隔”(soft margin)的概念,如下图所示.
当然,在最大化间隔的同时,不满足约束的样本应尽可能少.于是,优化目标可写为
其中C>0是一个常数,是“0/1损失函数”
然而,不易求解.于是,通常用其他一些函数来代替l
,称为“替代损失”(surrogate loss).替代损失函数一般具有较好的数学性质,如它们通常是凸的连续函数且是
的上界.下图给出了三种常用的替代损失函数:
五、支持向量回归
支持向量回归(Support Vector Regression,简称SVR)假设我们能容忍与y之间最多有
的偏差,即仅当
与y之间的差别绝对值大于
时才计算损失.如下图所示,这相当于以
为中心,构建了一个宽度为2
的间隔带,若训练样本落入此间隔带,则认为是被预测正确的.
于是,SVR问题可形式化为
其中C为正则化常数,是
-不敏感损失(c-insensitive loss)函数
引入松弛变量和
通过引入拉格朗日乘子由拉格朗日乘子法可得到上式的拉格朗日函数
再令对
, b,
和
的偏导为零可得
若考虑特征映射形式,则相应的,上式将形如
则SVR可表示为
其中为核函数.
六、核方法
定理6.2(表示定理)令为核函数r对应的再生核希尔伯特空间,
表示
空间中关于h的范数,对于任意单调递增函数
和任意非负损失函数
,优化问题
的解总可写为
因此人们发展出一系列基于核函数的学习方法,统称为“核函数”。最常见的是通过“核化”(即引入核方法)来将线性学习器拓展为非线性学习器,比如SVM、PCA、LDA、聚类等等都可以引入核方法。