SVM3

核函数

线性分类器只能解决线性可分的情况,那对于线性不可分的情况,可以用非线性函数作为分类器。
在这里插入图片描述
下面新建一个向量y和a
在这里插入图片描述
在这里插入图片描述
于是,g(x)可以写为:
在这里插入图片描述
f(y)可以表示为四维空间里的函数。是因为f(y)里面的y是一个三维的变量。这样,在二维空间里线性不可分的问题,在四维空间里变得线性可分。

在这里引入核函数的概念。核函数的基本概念就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值。

明白了以上这些,会自然的问接下来两个问题:

1. 既然有很多的核函数,针对具体问题该怎么选择?

2. 如果使用核函数向高维空间映射后,问题仍然是线性不可分的,那怎么办?

第一个问题现在就可以回答你:对核函数的选择,现在还缺乏指导原则!各种实验的观察结果(不光是文本分类)的确表明,某些问题用某些核函数效果很好,用另一些就很差,但是一般来讲,径向基核函数是不会出太大偏差的一种,首选。(我做文本分类系统的时候,使用径向基核函数,没有参数调优的情况下,绝大部分类别的准确和召回都在85%以上,可见。虽然libSVM的作者林智仁认为文本分类用线性核函数效果更佳,待考证)

对第二个问题的解决则引出了我们下一个主题:松弛变量。

松弛变量

仅有少数点线性不可分叫做“近似线性可分”的问题。
如何解决这种“硬间隔”的分类问题?就是仿照人的思路,允许一些点到分类平面的距离不满足原先的要求。我们原先对样本点的要求是:
在这里插入图片描述

其中l是样本数,意思是说离分类面最近的样本点函数间隔也要比1大。如果要引入容错性,就给1这个硬性的阈值加一个松弛变量。
在这里插入图片描述

松弛变量是非负的,最终的结果是要求阈值可以比1小。因而可以得到更大的几何间隔。因此,损失函数被定义为:
在这里插入图片描述
或者
在这里插入图片描述

加入损失函数后,原来的优化问题就变成了下面这样:
在这里插入图片描述
在这里插入图片描述

这个式子有几点要注意:
1.只有离群点才有松弛变量。
2.松弛变量的值实际上标示出了对应的点到离群的距离
3.惩罚因子决定了你有多重视离群带来的损失。

现在来说一下样本的偏斜问题,也叫数据集偏斜,它指的是参与分类的两个类别样本数量差异很大。比如说正类10000个,负类100个。

对于样本偏斜的问题,可以在惩罚因子C上作文章,那就是给样本数量少的负类更大的惩罚因子,表示我们重视这部分样本,因此我们的目标函数中因松弛变量而损失的部分就变成了:
在这里插入图片描述

SVM用于多类分类

有向无环图,这种方法也叫做DAG SVM.这种方法容易出现累积错误。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值