6. 使用同一分布的开发和测试数据集 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

错~~~

你依据市场大小,将猫咪数据分成了四个部分:美国、中国、印度和其他。
建立开发和测试数据集时,我们将美国和印度的数据放入开发测试集中,将中国和其他地区的数据放大测试数据集中。换句话说,我们可以随机将两部分数据放到开发数据集中,将另外两部分数据放到测试数据集中,但这样做真的好吗?

一旦定义了开发和测试数据集,你的团队就会聚焦在开发数据集上的性能提升。因此,开发数据集应该反应出你们最想解决的迫切问题,即机器学习模型需要在四个地区都表现很好,而不是其中的两个。

还有一个问题时,因为开发和测试数据的分布不同,有可能在开发数据集上表现很好的模型,却在测试数据集上表现得很差。发生这样得问题时,会非常打击人,大家得努利都白费了。希望这件事情不要发生在你们团队身上。

举个例子?:假如你的团队开发得系统,在开发测试集上表现很好,但是在测试集上表现得并不理想。如果你的开发数据集和测试数据集的分布是一致时,这时你会有非常明确得错误诊断方法,即:你的模型在开发数据集上发生了过拟合。这时解决方案也很清楚,增加开发数据集中得样本数量即可。

但是如果开发数据集和测试数据集的分布不一致时,解决方案就会不那么清晰了。产生这种错误的原因可能有以下几种:

  1. 模型在开发数据集上发生了过拟合
  2. 测试数据更难处理和预测,你的算法可能和预期是一致的,此时没有显著提升性能的可能性了。
  3. 测试数据也肯能不是更难,只是与开发数据集中的数据不同。所以在开发数据集上表现很好的模型,在测试数据集上却并不管用,此时你在开发数据集上,所做的任何努力都白费了。

机器学习应用相关的工作是非常困难的。如果开发数据集和测试数据集不一致,会带来很多不确定性,无法确定开发数据集上的改善,对测试数据集一定管用。因此如果开发数据集和测试数据集数据不一致,就很难判断哪些工作是有效的,哪些工作是无效的,从而无法确定工作的优先级了。

如果你正在处理基于第三方基准的问题,第三方可能已经指明来来着不同分布的开发和测试数据集。这时相对于来自同一分布的开发和测试数据集,运气对你来说就显得尤为重要了。将一种分布数据上训练出来的模型,推广到另外一个分布的数据集上,是当前非常重要的研究课题。但是如果你的目的是,解决某个特定机器学习应用的问题,我建议你使用来自同一分布的开发和测试数据集。这会让你的团队工作更加高效。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值