SVM防止过拟合

最新推荐文章于 2022-12-09 16:36:48 发布

HappyAngel19921027

最新推荐文章于 2022-12-09 16:36:48 发布

阅读量4.7k

点赞数

分类专栏：机器学习文章标签： SVM

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

过拟合（Overfitting）表现为在训练数据上模型的预测很准，在未知数据上预测很差。过拟合主要是因为训练数据中的异常点，这些点严重偏离正常位置。我们知道，决定SVM最优分类超平面的恰恰是那些占少数的支持向量，如果支持向量中碰巧存在异常点，那么我们傻傻地让SVM去拟合这样的数据，最后的超平面就不是最优的。

如图1所示，深红色线表示我们希望训练得到的最优分类超平面，黑色虚线表示由于过拟合得到的较差的分类面。这是由于蓝色数据中有一个异常点，即图中的那个黑圈蓝点，使得我们的SVM去将就配合它，导致最后得到的分类面（粗黑色虚线）不尽如人意。从间隔可以看出，黑色虚线两边的间隔要比红色线两边的间隔要狭窄，也就是黑色虚线的分类效果比较差。

图1 异常点导致SVM过拟合

解决过拟合的办法是为SVM引入了松弛变量ξ（slack variable），将SVM公式的约束条件改为：

（3）

从图2可以看到，引入松弛变量使SVM能够容忍异常点的存在。为什么？因为引入松弛变量后，所有点到超平面的距离约束不需要大于等于1了，而是大于0.8就行了（如果ξ=0.2的话），那么异常点就可以不是支持向量了，它就作为一个普通的点存在，我们的支持向量和超平面都不会受到它的影响。

图 2 松弛变量的作用

我们知道，事物都有两面性，对异常点太容忍会导致任意超平面都可以是“最优”超平面，SVM就失去意义了。因此SVM公示中的目标函数也需要相应修改，我们加上松弛变量的平方和，并求最小值。这样就达到一个平衡：既希望松弛变量存在以解决异常点问题，又不希望松弛变量太大导致分类解决太差。

HappyAngel19921027

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM防止过拟合

过拟合（Overfitting）表现为在训练数据上模型的预测很准，在未知数据上预测很差。过拟合主要是因为训练数据中的异常点，这些点严重偏离正常位置。我们知道，决定SVM最优分类超平面的恰恰是那些占少数的支持向量，如果支持向量中碰巧存在异常点，那么我们傻傻地让SVM去拟合这样的数据，最后的超平面就不是最优的。如图1所示，深红色线表示我们希望训练得到的最优分类超平面，黑色虚线表示由于过拟合得到
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。