支持向量机是一种二分类模型,基本想法就是基于训练集和样本空间中找到一个最好的划分超平面,将两类样本分割开来,首先你就要知道什么样的划分发才能称为“最”好划分。
很显然不只有这一条直线可以将样本分开,而是有无数条,我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。
目标:寻找一个超平面,使得离超平面较近的异类点之间能有更大的间隔,即不必考虑所有样本点,只需让求得的超平面使得离它近的点间隔最大。
分离超平面为 ![](https://i-blog.csdnimg.cn/blog_migrate/ecccc12c9f2bdc8284c335a9410c447c.png)
是某个确定的特征空间转换函数,它的作用是将x映射到(更高的)维度,最简单直接的:
(西瓜书第6章)
在这样的模型中,我们只考虑那些支持向量就可以了,不妨令那些“有可能分类不成功的点”,即靠近超平面的点,如下图。
同时存在两个平行于超平面的两个平面
(1)
yi=+1表示样本为正样本,yi=−1表示样本为负样本,式子前面选择大于等于+1,小于等于-1只是为了计算方便,原则上可以是任意常数,但无论是多少,都可以通过对 w 的变换使其为 +1 和 -1
------------------------------
已知:输入空间中任意一点 到超平面S的距离:
-----------------------------------------------------------------------------------------------
让分子绝对值脱掉,需要让绝对值里面的内容永远是正数或者负数才可以脱掉。
(1)此时将公式左右都乘以 yi
(1)
(2)
因此
相当于最小化 ||w||,转换成以下目标,只是为了后续求导方便。
几个概念:
1.线性可分(linearly separable):对于图中的圆形点和方形点,如果很容易就可以在图中画出一条直线将两组数据点分开,就称这组数据为线性可分数据
2.分隔超平面(separating hyperplane):将数据集分隔开来的直线称为分隔超平面
3.如果数据集是1024维的,那么就需要一个1023维的超平面来对数据进行分隔
4.间隔(margin):数据点到分隔面的距离称为间隔
5.支持向量(support vector):离分隔超平面最近的那些点
参考资料:
https://blog.csdn.net/american199062/article/details/51322852