一种二分类模型,是定义在特征空间上的 间隔最大的线性分类器;
SVM 的学习策略是 间隔最大化,学习算法是求解凸二次规划的最优化算法,可等价于 正则化的 合页损失函数最小化问题。
由简至繁的模型有: 线性可分支持向量机( (数据线性可分,硬间隔最大化)、线性支持向量机 (数据近似线性可分,软间隔最大化)、非线性支持向量机 (数据线性不可分,核技巧)。
当输入空间为 欧氏空间或离散集合、特征空间为希尔伯特空间时,通过核函数将 输入从输入
目录
什么样的函数可以作核函数呢?<-> positive definite kernel function
多项式核函数 (polynomial kernel function)
高斯核函数 (Gaussian kernel function)
字符串核函数 (string kernel function)
如何得到“核线性判别分析*(Kernelized Linear Discriminant Analysis)
《统计机器学习》7.4 SMO (Sequential Minimal Optimization)算法
6.1 间隔与支持向量
二分类问题:
给定训练样本集
找到一个划分超平面,将不同类别的样本分开,且 该划分超平面对训练样本局部扰动的容忍性最好。划分超平面在样本空间中由w 和 b 确定,且法向量w指向的一侧为正类,另一侧为负类,可通过下式描述
样本空间中任意点x 到超平面(w, b)的距离可写为:
而对于样本点,若
定义使得上述不等式()6.3) 的等号成立的样本点,被称为支持向量(support vector),两个异类支持向量到超平面的距离之和称为间隔(margin),定义如下:
欲找到具有“最大间隔 ”(maximum margin) 的划分超平面,即等价于 找到能满足式(6.3)的约束的 w 和 b,使得 γ 最大,即:
上式可等价转化为最小化下式,即支持向量机 (Support Vector Machine) 的基本型,即原始问题。
《统计机器学习-李航》第7.1.2节 函数间隔和几何间隔
一个点距离分离超平面的远近 可以表示分类预测的确信程度。上图中点A的确信程度高于点C。
在超平面wx+b=0 确定的情况下,|wx+b| 可以相对地表示 点x距离超平面的远近。
使用 y(wx+b)来表示 分类的正确性及确信度,这就是函数间隔(functional margin)。
定义7.2 (函数间隔)
对于给定的训练数据集D 和 超平面(w, b),定义超平面 (w, b)关于样本点 (xi, yi)的函数间隔为:
定义超平面(w, b)关于训练集 D 的函数间隔为 超平面 (w, b)关于 D 中所有样本点 (xi, yi)的函数间隔的最小值,即
但是选择分离超平面时,需要考虑到 等比例改变w和b后将得到不同的函数间隔,但实际上超平面并没有改变。因此 可以对分离超平面的法向量w加上某些约束,如规范化||w||=1,使得间隔确定,此时函数间隔便成为了几何间隔(geometric margin)。
定义7.3 (几何间隔)
对于给定的训练集 D 和 超平面 (w, b),定义超平面 (w, b) 关于样本点 (xi, yi)的几何间隔为:
定义超平面(w, b)关于训练集 D 的几何间隔为 超平面 (w, b)关于 D 中所有样本点 (xi, yi)的几何间隔的最小值,即
函数间隔 和 几何间隔的关系为:
《统计机器学习-李航》第7.1.3节 间隔最大化
间隔最大化的直观解释:对训练集找到几何间隔最大的超平面意味着 以充分大的确信度对训练数据进行分类,即对那些最难分的实例点 (距离超平面最近的点)也有足够大的确信度将它们分开。
1 最大间隔分离超平面
如何求得一个 几何间隔最大的分离超平面,可表示为以下 约束最优化问题:
如上一节中解释的那样,由于函数间隔的的等比例改变 对最优化问题的不等式约束没有影响,所以 取
= 1,带入式 (7.11),得到最大化
,该式等价于下式,是原始最优化问题:
算法 7.1 (线性可分支持向量机学习算法——最大间隔法)
输入:数据集
输出:最大间隔分离超平面 和 分类决策函数
1)构建并求解约束最优化问题:
求得最优解
2)得到分离超平面 和 分类决策函数:
2 最大间隔分离超平面的存在唯一性
定理7.1 (最大间隔分离超平面的存在唯一性)
若训练集 D 线性可分,则 可将训练集 D 中的样本点完全正确分开的 最大间隔分离超平面存爱且唯一。
证明参见《统计机器学习》p101
3 支持向量 和 间隔边界
支持向量 是使约束条件式 (7.14)等号成立的点,即
6.2 对偶问题
式(6.6)是一个凸二次规划问题 (convex quadratic programming)
凸优化问题指的是 如下约束最优化问题:
目标函数
和 约束函数
均是
上的连续可微的凸函数,约束函数
为
上的仿射函数
使用拉格朗日乘子法,得到其“对偶问题” (dual problem),通过求解对偶问题 得到原始问题 (primal problem)的最优解。
具体来说,对式 (6.6)的每条约束添加拉格朗日乘子 (lagrange multiplier) αi ≥ 0,则可构建该问题的拉格朗日函数如下:
根据拉格朗日对偶性,原始问题的对偶问题 是极大极小问题:
因此,先求解 L(w, b, α)对w,b的极小,再求对α的极大。
1) 求 。
令 L(w, b ,α )对 w 和 b的偏导为零,可得:
将式(6.9)带入式(6.8),并考虑式(6.10)的约束,可得到式(6.6)的对偶问题:
2)最小化上式 L(w, b, α),即求 对 α的极大,等价于 求解对偶问题: