统计学习方法-李航-第七章-支持向量机笔记
首先回顾一下感知机。感知机的模型是线性分类模型,将两种类别标记为正负1,将新的样本输入线性函数,再将线性函数代入符号函数就可以得到输出作为判定结果。这里最重要的还是线性函数的选取,线性函数在特征空间中可能就是一个超平面,只要这个超平面能将正负样本完全分隔开来就是符合要求的超平面,这也就是感知机的策略。具体到损失函数,选择的不是误分类点的个数,而是误分类点到超平面的总距离,这样才连续可求导,方便后续优化。
感知机的算法是在策略的基础上选择的优化算法。
从模型看,支持向量机有三种模型,对应训练数据的线性可分情况,从简单到复杂。当数据线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当数据近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当数据线性不可分时,同时使用核技巧(Kernel
Function)和软间隔最大化,学习一个非线性支持向量机。书中强调支持向量机的学习是在特征空间进行的,将输入空间中的输入数据映射到特征空间,非线性支持向量机是非线性映射,所以两个空间的元素不是一一对应的,其他两种支持向量机则是一一对应的。其实感知机的几何解释也是在特征空间中进行的,超平面将特征空间划分为两个部分。
与感知机相比,支持向量机的要求更高,不仅仅要求正确分类,还要求正确性尽可能高,正确性表现为样本点到超平面的距离(间隔)。具体策略与模型的选取有关,又分为硬间隔最大化和软间隔最大化。
支持向量机像感知机一样,都是二分类模型。
SVM不同于感知机 是因为SVM学习策略是间隔最大化,可以将该问题理解位凸二次规划问题,也可以将该问题理解为正则化的合叶损失函数最小化问题。
支持向量机(support vector machines, SVM)是一种二分类模型。它的基本模型是定义在特征空间上间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。
支持向量机的学习策略就是间隔最大化,可形式化位一个求解凸二次规划的问题。
分类:线性可分支持向量机(硬间隔支持向量机)、线性支持向量机(软间隔支持向量机)及非线性支持向量机。
一、线性可分支持向量机
1、基本含义
2、函数间隔和几何间隔
一般来说,一个点距离分离超平面的***远近可以表示分类预测的确信程度***。
函数间隔可以表示分类预测的正确性及可信度。
对分离超平面的法向量w加某些约束,如规范化,||w||=1,使得间隔是确定的,这时函数间隔成为几何间隔。
3、间隔最大化
支持向量机学习的基本想法是求解能够正确划分数据集并且几何间隔最大的分离超平面。
!!!线性可分训练数据集的最大间隔分离超平面是存在且唯一的。
二、线性支持向量机与软间隔最大化
2、非线性支持向量机与核函数
3、常用核函数
4、非线性支持向量分类机
四、序列最小最优化算法—SMO
小结:
支持向量机最简单的情况是线性可分支持向量机,或硬间隔支持向量机,构建它的条件是训练数据线性可分。其学习策略是最大间隔法。
线性可分支持向量机的最优解存在且唯一。