Machine Learning Yearning36~39

1.我们需要牢记的一点是,测试数据的分布一定要是我们期望的处理的数据的分布。所以如果期望的处理的数据有10000,而另一种分布的数据有200000,那么从210000里边分训练集和测试验证集是不合理的,因为这里边的验证集的分布大部分是第二种分布,并不是我们将来期望处理数据的分布。
但是由于我们能得到大量的数据,我们希望即使训练集和测试集分布不同,我们仍然能够利用这些信息。
我们假设验证集和测试集来自相同的分布。那我们的第一步是,5000分为验证测试集,205000为训练集。
2.如果将两种数据混合为训练集,对于早一些的算法,这种结果比不使用20000效果更加差。但是由于现在神经网络这么发达,这种坏的影响被大大削减了。只要我们的网络能力足够强,总有一种映射是对两种分布都适用的。也就是说,存在一种系统,即使输入的图像源是未知的,只要里边包含我们期望的分布的数据,那么网络就能够很好的预测。
增加额外的20000张图片,会有如下效果:1,网络能够利用20000图片里边提供的信息,对10000用户上传的图像。2,但是如果网络将它所有的能力用到了20000图片,而剩下的能力不足处理用户上传的10000张图片,那么这确实会对算法不利。因为这两种类型数据会竞争模型的capacity。
3.模型的capacity是有限的。所以扔掉无用的数据。那么什么是无用的数据。比如我们需要区分猫和狗,那么其它图像数据就是无用的。
4.那么在保证模型capacity的情况下,如何确定是否留下不同分布的数据一起作为训练数据。我们通过一致性来判断。那么什么是一致性?比如,不同地区的房价,我们想要预测A区的房价,但是我们还有B区的房价,不同的是,A区和B区的房价整体差距较大。这时,我们称AB两套数据是不连续的,因为我们不能给定x和f得到y,即不能得到f(x),从x映射到y。但是从网络得到的猫的图片和用户上传的猫的图片可以通过同一个f(x),将x映射到y,即是不是猫。
5.如果我们拿到的数据比我们测试的数据大很多,我们需要满足两点才能得到我们期望的输出:1,网络足够大;2,训练时间足够长。比如我们从网络得到200000张图片,而用户上传5000张,比率达到了40倍,这也许意味着我们需要比只拿5000进行训练多40倍的计算资源。如果我们没有这么多资源怎么办?一个折中的办法就是对网络图片一个低的权重。比如计算损失时,给网络图片的损失函数一个较小的权重。这种办法只在下边2种情况下才使用:1,额外的数据与测试数据分布相差很大;2,额外的数据量与测试数据量分布很大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值