手把手教你如何由浅入深地理解线性SVM模型

最新推荐文章于 2024-06-11 11:21:12 发布

Sim1480

最新推荐文章于 2024-06-11 11:21:12 发布

阅读量337

点赞数

本文链接：https://blog.csdn.net/lsxxx2011/article/details/100788972

版权

SMV的思想

SVM模型的核心是构造一个“超平面”，并利用“超平面”将不同类别的数据做划分。问题是“超平面”该如何构造，并且如何从无数多个分割面中挑选出最佳的“超平面”，只有当这些问题解决了，SVM模型才能够起到理想的分类效果。

为了直观展现，接下来将以二维数据为例，讨论一个线性可分的例子，进而使读者理解SVM模型背后的理论思想。

如下图所示，两个类别的样本点之间存在很明显的区分度，完全可以通过直线将其分割开来。例如，图中绘制了两条分割直线，利用这两条直线，可以方便地将样本点所属的类别判断出来。虽然从直观上来看这两条分割线都没有问题，但是哪一条直线的分类效果更佳呢（训练样本点的分类效果一致，并不代表测试样本点的分类效果也一样）？甚至于在直线 640?wx_fmt=png 和之间还存在无数多个分割直线，那么在这么多的分割线中是否存在一条最优的“超平面”呢？

640?wx_fmt=png

进一步，可以对照下图理解如何选择最优“超平面”。假设直线 640?wx_fmt=png 是和之间的某条直线，它同样可以将两类样本点准确无误地划分出来。为了能够寻找到最优的分割面

，需要做三件事，首先计算两个类别中的样本点到直线 640?wx_fmt=png 的距离；然后从两组距离中各挑选出一个最短的（如图中所示的距离和，继续比较和，再选出最短的距离（如图中的），并以该距离构造“分割带”（如图中经平移后的两条虚线）；最后利用无穷多个分割直线，构造无穷多个“分割带”，并从这些“分割带”中挑选出带宽最大的 640?wx_fmt=png 。

640?wx_fmt=png

这里需要解释的是，为什么要构造每一个分割线所对应的“分割带”。可以想象的是，“分割带”代表了模型划分样本点的能力或可信度，“分割带”越宽，说明模型能够将样本点划分得越清晰，进而保证模型泛化能力越强，分类的可信度越高；反之，“分割带”越窄，说明模型的准确率越容易受到异常点的影响，进而理解为模型的预测能力越弱，分类的可信度越低。对于“分割带”的理解，可以对比下图所示的两幅图形。

640?wx_fmt=png

上图中，左图的带宽明显要比右图宽很多，对于图中的异常五角星而言，左图既可以准确地识别出它所属的类别，但是右图就会识别错误。所以验证了关于“分割带”的说明，即分割线对应的“分割带”越宽越好，SVM模型就是在努力寻找这个最宽的“带”。

SVM的目标函数

根据如上的解释过程，可以将SVM模型的思想表达为一个数学公式，即SVM模型的目标函数为：

640?wx_fmt=png

其中， 640?wx_fmt=png 表示样本点i到某条固定分割面的距离；表示所有样本点与某个分割面之间距离的最小值；表示从所有的分割面中寻找“分割带”最宽的“超平面”；其中w和b代表线性分割面的参数。假设线性分割面表示为，则点到分割面的距离 640?wx_fmt=png 可以表示为：

640?wx_fmt=png

其中，‖w‖表示 w向量的二范式，即 640?wx_fmt=png 。很显然，上面的目标函数其实是无法求解的，因为对于上述的线性可分问题而言，可以得到无穷多个w和b，进而无法通过穷举的方式得到最优的w和b值。为了能够解决这个问题，需要换个角度求解目标函数，接下来的内容中将会介绍有关线性可分的SVM的目标函数。

线性可分SVM模型

以二分类问题为例，假设某条分割面可以将正负样本点区分开来，并且该分割面用 640?wx_fmt=png 表示。如果样本点落在分割面的左半边，则表示负例，反之表示正例，呈现的图形如下图所示

640?wx_fmt=png

不妨将五角星所代表的正例样本用1表示，将实心圆所代表的负例样本用-1表示；图中的实体加粗直线表示某条分割面；两条虚线分别表示因变量y取值为+1和-1时的情况，它们与分割面平行。从图中可知，不管是五角星代表的样本点，还是实心圆代表的样本点，这些点均落在两条虚线以及虚线之外，则说明这些点带入到方程 640?wx_fmt=png 所得的绝对值一定大于等于1。进而可以说明如果点对应的取值越小于-1，该样本为负例的可能性越高；点对应的取值越大于+1，样本为正例的可能性越高。所以，根据如上的图形就可以引申出函数间隔的概念，即数学表达式为：

640?wx_fmt=png

其中， 640?wx_fmt=png 表示样本点所属的类别，用+1和-1表示。当计算的值小于等于-1时，根据分割面可以将样本点对应的预测为-1；当计算的值大于等于+1时，分割面会将样本点对应的预测为+1。故利用如上的乘积公式可以得到线性可分的SVM所对应的函数间隔满足 640?wx_fmt=png 的条件。

直接将函数间隔利用到目标函数中会存在一个弊端，即当分割面中的参数w和b同比例增加时，所对应的 640?wx_fmt=png 值也会同比例增加，但这样的增加对分割面来说却丝毫没有影响。例如，将w和b同比例增加1.5倍，得到的值也会被扩大1.5倍，而分割面是没有变化的。所以，为了避免这样的问题，需要对函数间隔做约束，例如单位化处理，进而函数间隔可以重新表示为：