内容目录
一、基本概念二、鸢尾花实验三、乳腺癌检测实验
一、基本概念
【024】SVM有监督学习LinearSVC, LinearSVR,SVC,SVR参数解释
线性支持向量机
在超平面确定的情况下,可以相对地表示点距离超平面的远近。对于两类分类问题,如果,则的类别被判定为1;否则判定为-1(参考:https://zhuanlan.zhihu.com/p/31886934)。训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。(https://cloud.tencent.com/developer/article/1424413 https://www.kesci.com/home/project/5de08a8dca27f8002c4afe3b)
所以如果,则认为的分类结果是正确的,否则是错误的。且的值越大,分类结果的确信度越大。反之亦然。
所以样本点与超平面之间的函数间隔定义为
但是该定义存在问题:即和同时缩小或放大M倍后,超平面并没有变化,但是函数间隔却变化了。所以,需要将的大小固定,如,使得函数间隔固定。这时的间隔也就是几何间隔 。
几何间隔的定义如下
实际上,几何间隔就是点到超平面的距离。想像下中学学习的点到直线的距离,点到直线的距离公式
所以在二维空间中,几何间隔就是点到直线的距离。在三维及以上空间中,就是点到超平面的距离。而函数距离,就是上述距离公式中的分子,即未归一化的距离。
定义训练集到超平面的最小几何间隔是 ,实际上这个距离就是我们所谓的支持向量到超平面的距离。
SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧,且样本到超平面的几何间隔最大。根据以上定义,SVM模型的求解最大分割超平面问题可以表示为以下约束最优化问题
将约束条件两边同时除以