3.2.3 如何解决数据不匹配问题

最新推荐文章于 2022-05-30 16:44:15 发布

Einstellung

最新推荐文章于 2022-05-30 16:44:15 发布

阅读量3.8k

点赞数 5

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Einstellung/article/details/80205925

版权

本文探讨了在深度学习中遇到数据不匹配问题的场景，特别是在训练、开发和测试集分布不同的情况下。建议将数据按目标分布划分为训练集，以确保开发和测试集反映实际关注的分布。通过分析偏差和方差，可以识别数据不匹配导致的性能下降，并提出错误分析和人工数据合成等解决方法。

摘要由CSDN通过智能技术生成

在不同的划分上进行训练并测试

深度学习，对于数据的要求量很大。但有时候我们难以收集到足够的数据，可能一些其他数据要从其他办法来获得，这样就会容易出现不同数据的分布不同的情况。那么我们应该怎么办呢？

这里写图片描述

假设你在开发一个手机应用，用户会上传他们用手机拍摄的照片，你想识别用户从应用中上传的图片是不是猫。我们真正想要识别的是用户上传的图片。但是关于这些图片我们手头的数据量是不够的。我们也可以从网上下载大量的图片。但是这两种图片的分布是不一样的，比如说从网上下载的图片分辨率更高，用户上传的图片分辨率比较低。比如说我们手头只有1万张用户的图，有20万张网上下载的图片。

这里有一种选择，你可以做的一件事是将两组数据合并在一起，这样你就有21万张照片，你可以把这21万张照片随机分配到训练、开发和测试集中。为了说明观点，我们假设你已经确定开发集和测试集各包含2500个样本，所以你的训练集有205000个样本。现在这么设立你的数据集有一些好处，也有坏处。好处在于，你的训练集、开发集和测试集都来自同一分布，这样更好管理。但坏处在于，这坏处还不小，就是如果你观察开发集，看看这2500个样本其中很多图片都来自网页下载的图片，那并不是你真正关心的数据分布，你真正要处理的是来自手机的图片。

这里写图片描述

我建议你走另外一条

最低0.47元/天解锁文章

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
3.2.3 如何解决数据不匹配问题

在不同的划分上进行训练并测试深度学习，对于数据的要求量很大。但有时候我们难以收集到足够的数据，可能一些其他数据要从其他办法来获得，这样就会容易出现不同数据的分布不同的情况。那么我们应该怎么办呢？假设你在开发一个手机应用，用户会上传他们用手机拍摄的照片，你想识别用户从应用中上传的图片是不是猫。我们真正想要识别的是用户上传的图片。但是关于这些图片我们手头的数据量是不够的。我们也可以从网上下...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Einstellung 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。