1. 原始问题
给定训练样本集合
求超平面
使其将
的两类样本点分离在超平面的两侧,并最大化所有样点到该超平面的最小距离,即
Step0:原始问题
合并约束条件后可得
Step1:等价松弛
由于
对应相同的超平面,从而对于任意的
总可以找到标量缩放因子使得
Step2:等价转换
即
去掉下标可得
Step3:等价转换→原始问题
2. 对偶问题
Step1: 原始问题
其中,该原始问题的目标函数的原变量的定义域可以表示为
Step2: 拉格朗日函数
其中,该拉格朗日函数的原变量和对偶变量(拉格朗日乘数)的定义域可以表示为
Step3: 拉格朗日函数与原始问题之间的关系
其中
拉格朗日函数通过引入对偶变量,即拉格朗日乘数(需要满足一定约束条件),将原变量的定义域从原始问题中的有约束变为拉格朗日函数中的无约束。
Step4: 拉格朗日对偶函数
(下确界通常但不一定等于最小值,本文假设二者相等)
的获取过程分为两个步骤:
Step4-1: 将拉格朗日函数的对偶变量视为常数,使原变量在全空间内取值,使拉格朗日函数获得最小值,显然,这个最小值是对偶变量的函数
原始问题的拉格朗日函数关于原变量是凸函数,因此对原变量求导可得稳定点条件
带回拉格朗日函数可得
Step4-2: 上个步骤获得的最小值是个关于对偶变量的函数,这个函数就是拉格朗日对偶函数,即
其中对偶变量由于稳定点条件而引入了一个额外的约束
Step5: 拉格朗日对偶问题
在对偶变量的约束条件下,求拉格朗日对偶函数最大值的问题被称为拉格朗日对偶问题,即
转化为标准形式可得
对偶问题与原始问题的关系
3. 软间隔与正则化
有噪声,允许少量误差的情况,防止过拟合
4. 核函数
非线性可分的情况
5. 对偶问题求解:SMO算法
简化算法求解
6. 参考资料
有噪声,允许少量误差的情况,防止过拟合