支持向量机入门简介

支持向量机入门简介

1. 背景

支持向量机(Support Vector Machine)于 1995 年正式发表[ Cortes and Vapnik,1995 ],由于在文本分类任务中显示出卓越性能,很快成为机器学习的主流技术,并直接掀起了“统计学习”在 2000 年后的热潮。但实际上,支持向量的概念早在二十世纪六十年代就已出现,统计学习理论在七十年代就已成型。SVM 的求解通常是借助于凸优化技术[ Boyd and Vandenberghe,2004 ]。

2. 简介

支持向量机( Support Vector Machine )简称 SVM ,通俗来讲,SVM 是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器(线性分类器也可以叫做感知机,这里的机表示的是一种算法),即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

可以理解为,要找到一个超平面将两类的样本分隔开来,且这个超平面距离支持向量的间隔最大(因为间隔越大,分类的确信度也越大)。

这个超平面可以为二维或多维,它的表达式为:ω'x + b = 0 。

3. 两个例子(可线性分割的和不可线性分割的训练样本)

例如下图中,我们的问题是要把粉色和蓝色分开,同时又要使得分割线到粉线和蓝线的距离相等。这是一个二维平面(一个超平面,在二维空间中的例子就是一条直线),我们要将这两类点分开,红颜色的线表示一个可行的超平面,它可以解决这个问题。

在这里插入图片描述
SVM 不是简单的把两类样本分开,而是要达到一种完美的标准。支持向量机实际上就是一个线性分类器,找一个超平面完成样本的二分类问题,这个超平面我们希望它是如图的红色线,尽量能够留出空间给空白区域,这样能提高我们预测的可信度。同理,在三维空间中,我们要找的就是一个平面,在多维空间中则要找一个超平面。

在前面的讨论中,我们假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类。然而现实中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。如下图例子所示,该问题就不是线性可分的。

在这里插入图片描述
对这样的问题,可将样本从原始空间映射到一个更高维的特征空间(升维),使得样本在这个特征空间内线性可分。如上图,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。

那么如果维数很高怎么办呢?

使用原始 SVM 模型求解时,如果特征空间维数很高,甚至可能是无穷维,直接计算通常是困难的。为了避开这个障碍,过去的学者们设想了一个函数,使得各特征在特征空间的内积等于它们在原始空间中通过该函数计算的结果,这个方法被称为“核技巧”,这个函数被称为“核函数”。

4. 支持向量机与二项 logistic 回归

支持向量机与二项 logistic 回归类似,是一个两类的分类问题的解决算法,数据点用 X 这个 n 维列向量来表示,w^T 中的 T 代表转置,而类别用 Y 来表示,可以取 1 或者 -1 ,分别代表两个不同的类,这个 1 或 -1 的分类思想起源于 logistic 回归 0 或 1。

5. Support Vector (支持向量)

在这里插入图片描述
可以看到两条续线(这两条虚线我们称之为支持)夹着中间的 gap 的超平面,它们到中间的纯红线的距离相等,即我们所能得到的最大的空白空间。而这些虚线(支撑)上的点便叫做支持向量 Support Vector。支持向量可理解为两类样本中距离超平面最近的几个训练样本点所对应的位置坐标(或向量)。两个异类支持向量到超平面的距离之和称为“间隔”。原始 SVM 最优化问题就是找出具有“最大间隔”的划分超平面。

6. 过去学者们对 SVM 的求解的历程

为高效求解得到最大间隔划分超平面所对应的模型(凸二次规划),过去的学者们研究出使用拉格朗日乘子法通过对其对偶问题求解,以此学习线性 SVM。求解发现支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。这也就是“支持向量机”这个名字的由来,即强调了此类学习器的关键是如何从支持向量构建出解;同时也暗示着其复杂度主要与支持向量的数目有关。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值