支持向量机(Suport Vector Machine)
1.线性可分支持向量机
如下图A给定训练数据集,两个类别分隔足够清晰,因此很容易在图中画一条直线将两组数据分隔开,这种情况下数据称为线性可分(linearly separable )数据 。
由于数据在二维平面上,所以分隔超平面是一条直线;如果数据集是三维的,则分隔超平面是二维的;以此类推,如果数据集是N维的,那么分隔超平面就是N-1维的。我们把分隔数据的N-1维对象称为超平面(hyperplane)。 分布在超平面一侧的属于某一类,分布在另一侧的属于另一个类别。对于任意线性可分数据集我们就像找到一个超平面来构建分类器对样本分类。
分类学习的基本思想是:基于训练集在样本空间找到一个超平面将不同类别的样本分隔开,但是能将训练样本分割开的超平面可能有很多,如下图所示有很多直线可以将两类样本分开,应该选择哪条直线最好?
从直观上看,位于两个样本正中间的超平面是最好的,即下图红色的那条直线,因为该直线对样本局部扰动的容忍性最好。比如由于训练样本集的局限性和噪声干扰,训练集以外的样本可能比训练集中的任何样本都更接近分隔超平面,如下图中的几个绿色的样本点使得许多超平面出现划分错误。也就是说红色的超平面分类结果是最鲁棒的