6. 使用同一分布的开发和测试数据集翻译自吴恩达新书-Machine Learning Yearning

最新推荐文章于 2021-10-17 11:13:00 发布

maerdym

最新推荐文章于 2021-10-17 11:13:00 发布

阅读量512

点赞数

分类专栏：吴恩达-YEARNING 文章标签：吴恩达新书吴恩达新书中文版 Machine Learning Yearning中文版吴恩达新书中文版全吴恩达新书中文版1-52章

吴恩达-YEARNING 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

错~~~

你依据市场大小，将猫咪数据分成了四个部分：美国、中国、印度和其他。
建立开发和测试数据集时，我们将美国和印度的数据放入开发测试集中，将中国和其他地区的数据放大测试数据集中。换句话说，我们可以随机将两部分数据放到开发数据集中，将另外两部分数据放到测试数据集中，但这样做真的好吗？

一旦定义了开发和测试数据集，你的团队就会聚焦在开发数据集上的性能提升。因此，开发数据集应该反应出你们最想解决的迫切问题，即机器学习模型需要在四个地区都表现很好，而不是其中的两个。

还有一个问题时，因为开发和测试数据的分布不同，有可能在开发数据集上表现很好的模型，却在测试数据集上表现得很差。发生这样得问题时，会非常打击人，大家得努利都白费了。希望这件事情不要发生在你们团队身上。

举个例子?：假如你的团队开发得系统，在开发测试集上表现很好，但是在测试集上表现得并不理想。如果你的开发数据集和测试数据集的分布是一致时，这时你会有非常明确得错误诊断方法，即：你的模型在开发数据集上发生了过拟合。这时解决方案也很清楚，增加开发数据集中得样本数量即可。

但是如果开发数据集和测试数据集的分布不一致时，解决方案就会不那么清晰了。产生这种错误的原因可能有以下几种：

模型在开发数据集上发生了过拟合
测试数据更难处理和预测，你的算法可能和预期是一致的，此时没有显著提升性能的可能性了。
测试数据也肯能不是更难，只是与开发数据集中的数据不同。所以在开发数据集上表现很好的模型，在测试数据集上却并不管用，此时你在开发数据集上，所做的任何努力都白费了。

机器学习应用相关的工作是非常困难的。如果开发数据集和测试数据集不一致，会带来很多不确定性，无法确定开发数据集上的改善，对测试数据集一定管用。因此如果开发数据集和测试数据集数据不一致，就很难判断哪些工作是有效的，哪些工作是无效的，从而无法确定工作的优先级了。

如果你正在处理基于第三方基准的问题，第三方可能已经指明来来着不同分布的开发和测试数据集。这时相对于来自同一分布的开发和测试数据集，运气对你来说就显得尤为重要了。将一种分布数据上训练出来的模型，推广到另外一个分布的数据集上，是当前非常重要的研究课题。但是如果你的目的是，解决某个特定机器学习应用的问题，我建议你使用来自同一分布的开发和测试数据集。这会让你的团队工作更加高效。

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

maerdym CSDN认证博客专家 CSDN认证企业博客

码龄13年

53: 原创

6万+: 周排名

162万+: 总排名

31万+: 访问

: 等级

3660: 积分

307: 粉丝

150: 获赞

234: 评论

527: 收藏

私信

关注

热门文章

分类专栏

最新评论

YOLO7环境搭建、代码测试
Carbonyl_Weng: 我想问一下，如果要在已经配置好的虚拟环境中搭建，要怎么弄呢，安装依赖库的时候（pip install -r requirements.txt），一直都是显示ERROR: Could not open requirements file: [Errno 2] No such file or directory: 'requirements.txt'，是应该把源码放到哪个文件夹呢
YOLO7环境搭建、代码测试
JH_JYS: Traceback (most recent call last): File "detect.py", line 10, in <module> from models.experimental import attempt_load File "/root/autodl-tmp/models/experimental.py", line 6, in <module> from models.common import Conv, DWConv File "/root/autodl-tmp/models/common.py", line 15, in <module> from utils.datasets import letterbox ModuleNotFoundError: No module named 'utils.datasets' 请问这个问题该怎么解决呢
YOLO7环境搭建、代码测试
普通网友: 博主，，test.py上面的导包出现问题呀，，根本不能导包，，这是为什么呀
YOLO7环境搭建、代码测试
乌拉的啦: 是不是图片放错位置了？
YOLO7 姿势识别实例
有闲的小孩新子: 图片没什么问题，但是出现这种错误，不知何故啊RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 13 but got size 14 for tensor number 1 in the list.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。