吴恩达深度学习03-2.4 在不同的划分上进行训练并测试

最新推荐文章于 2024-06-05 16:15:05 发布

CtrlZ1

最新推荐文章于 2024-06-05 16:15:05 发布

阅读量150

点赞数

分类专栏：吴恩达深度学习课程文章标签：吴恩达深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41076797/article/details/112360983

版权

吴恩达深度学习课程专栏收录该内容

15 篇文章 1 订阅

订阅专栏

目录

在不同的划分上进行训练并测试
总结

在不同的划分上进行训练并测试

设想这样一个场景，你需要识别用户上传的图片是否含有猫，你首先需要收集训练数据。
如上所示，倘若你从网站上爬取了20w张高像素的照片，但只有1w张用户上传的不是那么清晰的图片数据，你手里只有这21w条数据，然而，只有1w张是你需要识别的用户上传的低像素图片的训练数据。可是你总不能不用那20w张高像素的吧，那么该如何划分训练集，验证集和测试集呢？
其实就是这么一个问题，你要识别的目标数据分布和你手头训练数据的数据分布不同，然而偏偏还占了你手头绝大多数的训练数据，你又不能直接丢弃，下面有两种方法：

第一种很显然，就是混合打乱这21w条数据，然后随机选20.5w用于训练，0.25w用于验证，0.25w用于测试，这些数据都是随机混合的，既有目标数据分布1w条，也有不符合目标数据分布的20w条数据，这样根据比例计算的话，大概0.25w条验证或测试数据里只有119条是符合目标数据分布的，剩下的2381条都是不符合目标数据分布的。
这种方法的优点是保持了训练数据和验证、测试数据的分布一致性。缺点是，对于目标数据分布的图像识别效果较差，很可能根本识别不出来用户上传的低像素照片里有没有猫咪，所以这种方法并不可取。
第二种方法是，20.5w条训练数据包含20w条不符合目标分布的数据和0.5w条符合目标分布的数据，另外验证集和测试集总共0.5w条数据全部使用符合数据分布的0.5w条数据，如此一来，虽然并没有满足训练数据、验证数据、测试数据的分布一致性，但是却使得模型的效果很好。这依赖于验证集和测试集的反馈调节。

总结

很多时候你可能都会遇到这种你手头的数据大部分都是不符合你目标数据分布的数据，但是我们仍然要利用这些数据，最可取的方法就是上面第二种方法，验证集和测试集一定要是符合目标数据分布的数据，如此一来模型的效果往往会相较于第一种方法好很多。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CtrlZ1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。