吴恩达深度学习03-2.6 定位数据不匹配

最新推荐文章于 2022-06-19 18:15:07 发布

CtrlZ1

最新推荐文章于 2022-06-19 18:15:07 发布

阅读量196

点赞数

分类专栏：吴恩达深度学习课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41076797/article/details/112365688

版权

吴恩达深度学习课程专栏收录该内容

15 篇文章 1 订阅

订阅专栏

问题

很多时候都会存在验证、测试集数据与训练集数据分布不同的问题，目前并没有系统的方法来解决这样的问题，但是往往可以通过人工的方式，找出训练数据和验证测试数据的差别，然后试图对数据进行一些操作来平衡这些差别。
例如语音识别，可能测试集数据语音有很多背景噪声，而训练集没有，当然，实际的语音识别环境肯定是有一些背景噪声的，所以对于训练集，我们可以进行一些操作，有人说可以适用合成声音，为清洗的训练集数据添加噪音。
但是这么做是有潜在问题的，比如训练集某条数据声音长达1h，而你的噪音是10mins，有一种选择是将10mins的噪音重叠6次来匹配这一条训练数据的声音。这么做对于人耳来说，你可能分辨不出来你听到的其实是重复的噪音，但是对于机器来说，它当然是清楚的。这样做产生的问题就是，机器会对这段噪音过拟合。

后果

本身噪音是一个无穷大的集合，然而你只选取这一种噪音，或者几百几千种噪音，重叠播放等等，在机器眼里它只能认识这些噪音，对这些噪音的训练达到了过拟合的程度，而对于其他的自然噪音可能效果并不好。

拓展

其实相同的问题不只是出现在语音识别上，图像识别也是如此，有人说，让电脑生成一些带有“汽车”的图片拿去训练，不就有足够的数据了嘛？图像合成的确可以做到，然而再怎么做，也是在一定的集合范围内，它永远无法涵盖所有的汽车，所以机器对于这些图片中的车辆进行了过拟合的训练。
不过当然，人工合成数据有时候也是可行的，不过你要在心里知道，你提供的数据可能没有涵盖所有的可能。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
吴恩达深度学习03-2.6 定位数据不匹配

问题很多时候都会存在验证、测试集数据与训练集数据分布不同的问题，目前并没有系统的方法来解决这样的问题，但是往往可以通过人工的方式，找出训练数据和验证测试数据的差别，然后试图对数据进行一些操作来平衡这些差别。例如语音识别，可能测试集数据语音有很多背景噪声，而训练集没有，当然，实际的语音识别环境肯定是有一些背景噪声的，所以对于训练集，我们可以进行一些操作，有人说可以适用合成声音，为清洗的训练集数据添加噪音。但是这么做是有潜在问题的，比如训练集某条数据声音长达1h，而你的噪音是10mins，有一种选择是将
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CtrlZ1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。