支持向量机在深度学习技术出现之前,使用高斯核的支持向量机在很多分类问题上取得了很好的结果,支持向量机不仅用于分类,还可以用于回归问题。它具有泛化性能好,适合小样本和高维特征的优点。
1. SVM引入
1.1支持向量机分类
支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器。它是一种二分类的模型,当采用了核技巧之后,支持向量机可以用于非线性分类。不同类型的支持向量机解决不同问题:
(1)线性可分支持向量机(硬间隔支持向量机):
当训练数据线性可分的时候,通过硬间隔最大化,学习得到一个线性可分支持向量机。
(2)线性支持向量机(软间隔支持向量机):
当训练数据近似线性可分时,通过软间隔最大化,学习一个线性支持向量机。
(3)非线性支持向量机:
当训练数据不可分的时候,通过使用核技巧以及软间隔最大化,学得一个非线性支持向量机。
1.2 线性可分、线性和非线性的区分
第一个图是线性可分,我们借助线性可分支持向量机完成分类。第二个图是不能完全线性可分,我们通过线性支持向量机解决。第三个图是完全线性不可分的,需要借助非线性支持向量机分类。
通过上述描述,我们抽象其中的蓝球和红球,并将两种颜色的球转化为二维平面上的点坐标,篮球映射为黑球,红球映射为白球。使用直线H1,H2和H3分类这两类颜色的球,图中的H1不能很好的区分黑球和白球,可以看到H2和H3都能很好的区分这两种颜色的球。
区分数据集。 我们能够想到和H2和H3这样的直线一样可以区分两种颜色的球体有很多种条直线,虽然他们都能够很好的分类已经存在的黑球和白球,也就是我们之前讲到的训练集分类效果很好,训练误差为0。但是不能保证这些超平面在未知的实例上运行效果会很好,当有更多的黑球或白球的时候,我们提到的这些平面还能很好的让这些未知的球得到很好的分类吗?
我们这里考虑泛化误差的影响。 根据在检验样本上的运行效果,分类器必须从这些分类超平面中选择一个来