1. 间隔和支持向量
在数据集D,
,基本思想是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。
划分超平面可用:
,其中
为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。记为
。样本空间中任意一点 x 到超平面的距离为
(1)
假设超平面能使训练样本正确分类,对于,若
,则有
,若
,则有
。令
(2)
距离超平面最近的这几个训练样本使得上式等号成立,它们被称为“支持向量”,两个异类样本到超平面的距离之和为;
它被称为“间隔”
想要找到最大间隔的划分超平面,就是要找到能满足(2)式中约束的参数和b,使得
最大,即:
(3)
显然为了最大化间隔,仅需要最大化,这等价与最小化
,于是(3)可以重写为
(4)
这就是支持向量机的基本模型,简称SVM
2 对偶问题
对于(4)式使用拉格朗日乘子法可得到其“对偶问题”,具体来说,为(4)式的每条约束添加拉格朗日乘子,则该问题可以重写为
(5)
其中,令
对w和b偏到为0可得:
把上两式代入(5)中再考虑(4)中的约束条件,得到(4)中的对偶问题如下:
(6)
解出后可得到模型
注意(4)中的约束条件,KKT条件如下:
注意到总有,若前者等于0,则没有意义,若
,则必有
,所对应的样本点位于最大间隔边界上,是一个支持向量。
通过(6)式接触,w和b即可求得。
3 核函数
再实际任务中,原始样本空间或许不存在一个正确划分两类的超平面。对于这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间中线性可分。
令表示将x映射后的特征向量,于是在特征空间中划分超平面所对应的模型可表示为
类似于(4),有
其对偶问题
涉及到,这是样本xi到xi映射到特征空间之后的内积。由于维数可能很高,计算该内积很困难,为了避开这个障碍,可以设想一个这样的函数
即xi与xj在特征空间的内积等于他们在原始样本空间中通过函数计算的结果。
于是上式可重写为
求解后得到:
函数就是核函数。只要一个对称函数所对应的很矩阵半正定,他就可以作为核函数。
常用线性核函数有:线性核、多项式核、高斯核(rbf)
4 软间隔和正则化
(待续)