SVM学习

SVM是一种基于统计学习理论的模式识别方法。
目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。
解决方法:构造一个在约束条件下的优化问题,具体的说是一个受限二次规划问题(constrained quadratic programing),求解该问题,得到分类器。
 
在模式识别中,求解问题一般可以描述如下:
已知:n个观测样本,(x1,y1), (x2,y2)…… (xn,yn)
求:最优函数y’= f(x,w)
满足条件:期望风险最小
一般情况下联合概率F(x,y)难以求得,实际中用经验风险Remp(w)代替期望风险R(w)
但是经验风险只表示在样本集上分类结果与实际结果之差,很多分类函数能够在样本集上轻易达到100%的正确率,在真实分类时却一塌糊涂,即泛化能力差。
     统计学习因此而引入了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表 了我们在多大程度上可以信任分类器在未知文本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算 上界,而无法计算准确的值(所以叫做泛化误差界,而不叫泛化误差)。置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
    一般R(w)<=Remp(w)+置信风险。
经验风险与期望风险之间关系:
经验风险最小不等于期望风险最小,不能保证分类器的推广能力。
经验风险只有在样本数无穷大趋近于期望风险,需要非常多的样本才能保证分类器的性能。
需要找到经验风险最小和推广能力最大的平衡点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值