吴恩达深度学习03-2.4 在不同的划分上进行训练并测试

在不同的划分上进行训练并测试

  • 设想这样一个场景,你需要识别用户上传的图片是否含有猫,你首先需要收集训练数据。在这里插入图片描述
    如上所示,倘若你从网站上爬取了20w张高像素的照片,但只有1w张用户上传的不是那么清晰的图片数据,你手里只有这21w条数据,然而,只有1w张是你需要识别的用户上传的低像素图片的训练数据。可是你总不能不用那20w张高像素的吧,那么该如何划分训练集,验证集和测试集呢?
  • 其实就是这么一个问题,你要识别的目标数据分布和你手头训练数据的数据分布不同,然而偏偏还占了你手头绝大多数的训练数据,你又不能直接丢弃,下面有两种方法:
    在这里插入图片描述
    第一种很显然,就是混合打乱这21w条数据,然后随机选20.5w用于训练,0.25w用于验证,0.25w用于测试,这些数据都是随机混合的,既有目标数据分布1w条,也有不符合目标数据分布的20w条数据,这样根据比例计算的话,大概0.25w条验证或测试数据里只有119条是符合目标数据分布的,剩下的2381条都是不符合目标数据分布的。
    这种方法的优点是保持了训练数据和验证、测试数据的分布一致性。缺点是,对于目标数据分布的图像识别效果较差,很可能根本识别不出来用户上传的低像素照片里有没有猫咪,所以这种方法并不可取。
    第二种方法是,20.5w条训练数据包含20w条不符合目标分布的数据和0.5w条符合目标分布的数据,另外验证集和测试集总共0.5w条数据全部使用符合数据分布的0.5w条数据,如此一来,虽然并没有满足训练数据、验证数据、测试数据的分布一致性,但是却使得模型的效果很好。这依赖于验证集和测试集的反馈调节。

总结

  • 很多时候你可能都会遇到这种你手头的数据大部分都是不符合你目标数据分布的数据,但是我们仍然要利用这些数据,最可取的方法就是上面第二种方法,验证集和测试集一定要是符合目标数据分布的数据,如此一来模型的效果往往会相较于第一种方法好很多。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CtrlZ1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值