【支持向量机】
支持向量机(support vector machines, SVM)是一种二类分类模型(判别模型)。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机包括:线性可分支持向量机(linear support vector machine in linearly separable case)、线性支持向量机(linear support vector machine)及非线性支持向量机(non-linear support vector machine)。
1995年,Cortes与Vapnik提出线性支持向量机。随后,Boser、Guyon与Vapnik又引入核技巧,提出非线性支持向量机。
0.预备
1.模型
1.1线性可分支持向量机(linear support vector machine in linearly separable case)
函数间隔:表示分类预测的正确性及确信度;
几何间隔:对分离超平面的法向量w加某些约束。
间隔最大化:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。即,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。
1.2线性支持向量机(linear support vector machine)
当样本点(xi,yi)被正确分类且函数间隔(确信度)yi(w*xi+b)大于1时,损失是0,否则损失是…。
认为0-1损失函数是二类分类问题的真正的损失函数,而合页损失函数是0-1损失函数的上界。0-1损失函数不是连续可导,将上界损失函数称为代理损失函数。 perceptron loss:感知机损失函数。
1.3非线性支持向量机(non-linear support vector machine)
将上例通过线性变化,将左图中椭圆变换成右图中的直线,将非线性分类问题变换为线性分类问题。
核函数在支持向量机中的应用:
在对偶问题的目标函数中的内积xi,xj可以用核函数K(xi,xj)来代替:
常用核函数:
<