过拟合随记

过拟合随记

看过很多关于过拟合方面资料,(自学习了4个月+)今天随记一篇自己对过拟合的观点。

机器学习是对偏好进行归纳的过程(来源于西瓜书)。这句话好像什么都没说,又好像什么都说完了。那么问题来了,何为偏好?我这里引入自己利用SSD算法做的一个目标检测DEMO(检测的内容就是卡卡西、鸣人、佐助)来聊聊个人观点。算了,归纳偏好还是引用图像分类算法来阐述更直接,分类的目的就是哪一张是卡卡西、鸣人还是佐助?
在这里插入图片描述

言归正传。刚才说到偏好,何为偏好?偏好是特征么?是但也不是,更具体的说偏好是指那些代表性的特征,而不是共有特征,更不是细化的个性特征(过拟合),何为代表性特征?卡卡西的发型(还有那个万年不脱口罩)、鸣人的黄色发型、佐助的发型。你完全可以根据他们局部特征判断是谁,不需要一个像素一个像素的看吧(卷积与全连接的区别)。共有特征这就解释了吧,都与头发,不能用有没有头发区分三者。细化的个性特征,这个就比较有意思也是关键,比如模型把写轮眼作为佐助的代表性特征,也就是说这一特征贡献的神经元输出很大,最终模型把写轮眼特征判定为佐助,那么问题来了,现在这张图片佐助没有开写轮眼,是不是要判定不是他啊?到这里就解释完了。

如何抑制过拟合?这个课题伴随了整个机器学习的发展历程,具体的方法分为两种:1)降低模型的复杂度。2)数据扩充(data augmentation)

1)降低模型的复杂度

具体的方法:L1、L2正则化、Dropout、batch normalization、集成学习。(今天不讨论约束模型方法)

2)数据扩充

具体的方法:1.水平翻转、剪裁、随机旋转、平移、缩放;2.增加图像噪声(高斯白噪声、椒盐噪声);3.图像锐化、清晰度和光照改变等。你以为我是来讲数据怎么扩充的?不,我是来讲扩充数据为什么能够抑制过拟合的。先谈谈1,其实也没有啥好说的,就是让代表性特征成为主流,啥是主流?就是成为强特征占到主导地位。再说2,网上都说噪音有利于迫使特征具有一般性,而一般性有利于模型的泛化能力,其实我的理解是一般性有利于模型的泛化能力这没错,但是更具体的是噪音有利于削弱细化的个性特征,而不是削弱具有代表性的特征,如果你削弱具有代表性的特征,模型岂不是欠拟合了?最后就是3了,我也不理解,可能锐化操作让特征的值更加凸显吧,光照和清晰度也没啥好说的,就是让环境因素更加一般性,总不能你的人脸识别只能在你白天或黑天解锁吧

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV_er

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值