svm有三宝:间隔、对偶、核技巧
svm的分类:hard-margin svm 硬间隔
soft-margin svm 软间隔
kemel svm核函数
前面两种硬间隔和软间隔主要针对线性问题,核函数部分主要针对非线性问题,核技巧能够使svm从普通的欧氏空间、特征空间映射到高维空间,可以实现非线性的分类。
svm原理的定义:
svm原理用来解决二分类问题,其可以归结为一句话,即使离超平面最近的点(支持向量)到该平面的距离最大化。
硬间隔:
超平面是针对二分类问题,通过超平面将样本分为正类和负类,(即图中的×和o)。
正类和负类的标签为yi,yi的取值只有+1和-1,取+1时代表正类,取-1时代表负类,这是一个判别模型。
通过使两类中离超平面最近点(支持向量)最大化的方式来确定超平面并求出超平面。
归一化:
归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。
对于支持向量机而言,如果不使用归一化将特征无量纲化,特征分布就会呈椭圆状,在训练模型的时候不仅会影响模型预测精度,甚至会使模型训练跳入死循环,无法收敛。
另一种理解:
以下我们简单介绍一下什么是拉格朗日乘子法
运用定义中所说的将有n个变量与k个约束条件的最优化问题转化为一个有n+k个变量的方程组的极值问题这一思想带入我们问题的讨论中,可得:
•对拉格朗日函数取最大,最优的情况就是等于原问题的目标函数
因此我们对于上述函数求解的时候先进行了一个取最大值的过程,然后再去求最小值。
最后转化成了这种形式:
KKT条件下面会讲到,现在我们先假设在已经满足这种强对偶关系后,我们怎么继续求解,现在相当于要对函数式进行一个先求最小值再求最大值的过程。
首先为了求最小值min部分,我们先进行求导。
详细的求导过程
此时我们看式子的现状,我们想要继续往下求解,就必须知道α的值,所以后面我们会有大量的篇幅来求其中的α。
下面我们接着来补充KKT条件的部分:
到此刻,别管是w还是b的解中,我们都需要知道α才能继续往下走。
我们先放一放这个问题,来说到另一个问题,软间隔问题: