40.从训练数据集泛化到开发数据集翻译自吴恩达新书-Machine Learning Yearning

最新推荐文章于 2021-08-30 19:45:20 发布

maerdym

最新推荐文章于 2021-08-30 19:45:20 发布

阅读量227

点赞数

分类专栏：吴恩达-YEARNING 文章标签：吴恩达新书吴恩达新书中文版 Machine Learning Yearning 中文版吴恩达新书中文版全吴恩达新书中文版全(1-52章)

吴恩达-YEARNING 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习：让机器学会打游戏系列教程(含视频)

假如你正在配置一个模型，这个模型中训练样本集中的数据分布与开发/测试样本不同。
比如说，训练样本集中包含网络图片和手机上传图片，而测试/开发样本集中只包含手机上传的图片。然后，此时算法表现很差，它在开发/测试样本集上的错误率远高于你的期望。造成这种现象的原因可能有以下几个：

它在训练样本集上表现的也很差。这时模型在训练样本集中，有高偏差的问题。
他可以在训练样本集上表现的很好。但是算法不能泛化到与训练样本集分布相同，但是之前没见过的数据上，这是高方差的问题。
模型可以很好的泛化到相同分布的数据上，但是在不同分布的开发/测试样本集上，表现的很差。我们称这个问题叫做数据不匹配，这是因为训练样本集与开发/测试样本集匹配度很差。

比如，在人类可以取得近乎完美的猫的图片识别任务，你的算法表现如下：

在训练样本集上的错误率为1%
在与训练数据分布相同，但是之前没用过的数据上，算法的错误率为1.5%
在开发数据集上的错误率为10%

在这个例子中，你可以很明显的看出数据不匹配问题。为了处理这个问题，你需要让训练数据更加接近开发/测试数据。我们之后将会讨论与之相关的技术。

为了诊断出算法出现了上面三个问题中的哪一个，你需要再使用一个数据集。因此，相比把所有的训练数据都用作训练，你应该把训练数据分成两部分：一部分用作算法的训练，另一部分称作训练开发集，这部分数据不参与训练。

你现在有四个数据子集：

训练数据集：算法用于学习训练的数据(比如网络图片+用户上传的图片)。这部分数据与我们关心数据(开发/测试样本集)的分布不同。
训练开发集：这部分数据与训练数据集的分布相同(比如网络图片+用户上传图片)，他通常会比训练样本集小，因为它只要能评估和追踪算法的进度就可以了。
开发数据集：这部分数据与测试数据集分布相同，反映了我们真是关心的数据分布(比如用户上传的图片数据分布)
测试数据集：这部分数据与开发数据集分布相同。

拥有这四个数据集，你可以完成以下评估：

通过训练样本集评估训练错误率
通过训练开发集，评估算法在同一分布数据上的泛化能力
通过开发/测试样本集，评估算法在你真正关心数据上的表现

5-7章所说的开发测试大小的选择方法，也同样适用于训练开发集大小的选择。

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄13年

53
原创

151
点赞

528
收藏

307
粉丝

关注

私信

热门文章

分类专栏

最新评论

YOLO7环境搭建、代码测试
Carbonyl_Weng: 我想问一下，如果要在已经配置好的虚拟环境中搭建，要怎么弄呢，安装依赖库的时候（pip install -r requirements.txt），一直都是显示ERROR: Could not open requirements file: [Errno 2] No such file or directory: 'requirements.txt'，是应该把源码放到哪个文件夹呢
YOLO7环境搭建、代码测试
JH_JYS: Traceback (most recent call last): File "detect.py", line 10, in <module> from models.experimental import attempt_load File "/root/autodl-tmp/models/experimental.py", line 6, in <module> from models.common import Conv, DWConv File "/root/autodl-tmp/models/common.py", line 15, in <module> from utils.datasets import letterbox ModuleNotFoundError: No module named 'utils.datasets' 请问这个问题该怎么解决呢
YOLO7环境搭建、代码测试
普通网友: 博主，，test.py上面的导包出现问题呀，，根本不能导包，，这是为什么呀
YOLO7环境搭建、代码测试
乌拉的啦: 是不是图片放错位置了？
YOLO7 姿势识别实例
有闲的小孩新子: 图片没什么问题，但是出现这种错误，不知何故啊RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 13 but got size 14 for tensor number 1 in the list.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。