间隔与支持向量
对于给定的训练样本集,,分类任务即是在样本空间中寻找一个划分超平面将不能类别的样本分开。满足条件的划分超平面可能非常多,其中存在一个对训练样本局部扰动“容忍性”最好的,其性能最鲁棒,对未见示例泛化能力最强。
在样本空间中,划分超平面可通过如下线性方程来描述:
其中 为超平面的法向量,决定了超平面和原点之间的距离。样本空间任意点到超平面的距离可写为:
假设超平面可以将训练样本正确分类,则:
距离超平面最近的几个训练样本使上述不等式取等号,他们被称为支持向量,两个异类支持向量到超平面的距离之和为:
被称为间隔,间隔最大的划分超平面即所要求解的最优超平面,可以构建如下优化问题:
该问题可转化为:
以上就是支持向量机的基本型。
对偶问题
上述优化问题是一个凸二次规划,除了用现成的优化计算包求解,还可以通过求解对偶问题来求解原问题。拉格朗日函数为:
其中 。令上式对和求偏导可得:
将上式带入拉格朗日函数可化简得到原问题的对偶问题:
解出后,求出和即可得到模型:
上述问题转化过程去要满足KKT条件:
对于某一个具体的训练样本,总有或。若前者成立,则意味着该样本不会对模型产生任何影响;若,则后者必成立,该样本处于最大间隔边界上,是一个支持向量。即:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。
对偶问题依然是一个二次规划问题,其问题规模正比于训练样本个数,计算开销极大,因此可以利用问题本身的特性来设计其他高效算法(如SMO)。
核函数
大量问题可能是线性不可分的,即不存在一个线性超平面将样本正确分类。
通过合适的核函数可以将样本从原始空间映射到一个合适的高维空间:
- 高维空间中,样本线性可分
- 维度增加,但核函数避免了计算量的显著增加
若原始空间是有限维,则一定存在一个高维特征空间使样本可分。
软间隔与正则化
现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分,即使可分也可能是由于过拟合造成的。
软间隔:允许某些样本不满足约束
引入松弛变量,新的优化问题可以写作:
是一个权重系数,当其取无穷大时,问题就等价于硬间隔优化问题。软间隔优化问题的对偶问题为:
支持向量回归
对于回归任务,可将问题构建为:模型周围存在一个间隔带,当样本落入该间隔带以内时视作其不产生loss,否则产生,该间隔带的宽度记作,优化问题为:
其中:
对于该问题的求解,思路类似于求解支持向量机基本型。通过拉格朗日函数构建原问题的对偶问题,分类问题中所使用的核函数方法依然适用于回归问题。