深入理解SVM
martin
SVM核心思想一:最大间隔
对于一个分类算法,想要画出一条决策边界,但是由于决策边界有很多条我们想要通过某种衡量手段来确定一条在此条件下最好的一条决策边界,所以就会有个问题: 什么样的决策边界才是最好的呢? 于是最大边界应运而生。
让最大间隔作为衡量一条决策边界的好还的原因是,如果一条决策边界有最大间隔,那么这条决策边界就具有很好的 鲁棒性 ,相当于增加了一个缓冲地带,再来一个数据集我可以很从容的包容你进行分类不至于分错类别。
下面讲下最大间隔的概念,如上图,假如存在一条图中的决策边界, A 为边界上的某一点,那么连接原点可以作出通过
对于训练集中的正类:
对于训练集中的负类:
我们先将这里的间隔设为1,当然,可以设置为5,10或者50,100等,但通过左右消除都可以变成1,所以这里就是用1来作为间隔距离。
SVM核心思想二:决策公式
将 y 的取值给出:
对于训练集中的正类:
对于训练集中的负类:
所以我们可以将上面三个公式合并起来得到一个决策公式,来表示对样本的正确分类:
而在决策边界的边界上的,可以理解为在 路边 上的点符合下面的公式:
SVM核心思想三:目标函数
现在我想要求得这条包含两个间隔的“马路”的宽度,所以我分别选取了在路两边上的点, OC,OD ,那么这两个向量之差就是”路”的宽度。
写成公式就是,这里的