吴恩达深度学习03-2.6 定位数据不匹配

问题

  • 很多时候都会存在验证、测试集数据与训练集数据分布不同的问题,目前并没有系统的方法来解决这样的问题,但是往往可以通过人工的方式,找出训练数据和验证测试数据的差别,然后试图对数据进行一些操作来平衡这些差别。
  • 例如语音识别,可能测试集数据语音有很多背景噪声,而训练集没有,当然,实际的语音识别环境肯定是有一些背景噪声的,所以对于训练集,我们可以进行一些操作,有人说可以适用合成声音,为清洗的训练集数据添加噪音。
  • 但是这么做是有潜在问题的,比如训练集某条数据声音长达1h,而你的噪音是10mins,有一种选择是将10mins的噪音重叠6次来匹配这一条训练数据的声音。这么做对于人耳来说,你可能分辨不出来你听到的其实是重复的噪音,但是对于机器来说,它当然是清楚的。这样做产生的问题就是,机器会对这段噪音过拟合。

后果

  • 本身噪音是一个无穷大的集合,然而你只选取这一种噪音,或者几百几千种噪音,重叠播放等等,在机器眼里它只能认识这些噪音,对这些噪音的训练达到了过拟合的程度,而对于其他的自然噪音可能效果并不好。

拓展

  • 其实相同的问题不只是出现在语音识别上,图像识别也是如此,有人说,让电脑生成一些带有“汽车”的图片拿去训练,不就有足够的数据了嘛?图像合成的确可以做到,然而再怎么做,也是在一定的集合范围内,它永远无法涵盖所有的汽车,所以机器对于这些图片中的车辆进行了过拟合的训练。
  • 不过当然,人工合成数据有时候也是可行的,不过你要在心里知道,你提供的数据可能没有涵盖所有的可能。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CtrlZ1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值