6. 机器学习策略 -- 1

最新推荐文章于 2023-08-14 10:28:13 发布

Fiona-Dong

最新推荐文章于 2023-08-14 10:28:13 发布

阅读量321

点赞数

分类专栏：神经网络与深度学习—吴恩达文章标签：机器学习

原文链接：http://www.ai-start.com/dl2017/html/lesson3-week1.html

版权

神经网络与深度学习—吴恩达专栏收录该内容

6 篇文章 0 订阅

订阅专栏

6.1 训练/开发/测试集划分（Train/dev/test distributions）

举个例子，要开发一个猫分类器，然后在这些区域里运营，美国、英国、其他欧洲国家，南美洲、印度、中国，其他亚洲国家和澳大利亚，那么应该如何设立开发集和测试集呢？

建议的是将所有数据随机洗牌，放入开发集和测试集，所以开发集和测试集都有来自八个地区的数据，并且开发集和测试集都来自同一分布，这分布就是所有数据混在一起。

6.2 开发集和测试集的大小（Size of dev and test sets）

你可能听说过一条经验法则，在机器学习中，把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集，会这么分：60%训练集，20%开发集，20%测试集。在机器学习的早期，这样分是相当合理的，特别是以前的数据集大小要小得多。所以如果总共有100个样本，这样70/30或者60/20/20分的经验法则是相当合理的。如果有几千个样本或者有一万个样本，这些做法也还是合理的。

但在现代机器学习中，我们更习惯操作规模大得多的数据集，比如说有1百万个训练样本，这样分可能更合理：98%作为训练集，1%开发集，1%测试集，我们用D和T缩写来表示开发集和测试集。因为如果有1百万个样本，那么1%就是10,000个样本，这对于开发集和测试集来说可能已经够了。所以在现代深度学习时代，有时我们拥有大得多的数据集，所以使用小于20%的比例或者小于30%比例的数据作为开发集和测试集也是合理的。而且因为深度学习算法对数据的胃口很大，我们可以看到那些有海量数据集的问题，有更高比例的数据划分到训练集里，那么测试集呢？

要记住，测试集的目的是完成系统开发之后，测试集可以帮你评估投产系统的性能。方针就是，令你的测试集足够大，能够以高置信度评估系统整体性能。所以除非你需要对最终投产系统有一个很精确的指标，一般来说测试集不需要上百万个例子。对于你的应用程序，也许你想，有10,000个例子就能给你足够的置信度来给出性能指标了，也许100,000个之类的可能就够了，这数目可能远远小于比如说整体数据集的30%，取决于你有多少数据。

reference

机器学习（ML）策略（1）

Fiona-Dong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
6. 机器学习策略 -- 1

6.1 训练/开发/测试集划分（Train/dev/test distributions）举个例子，要开发一个猫分类器，然后在这些区域里运营，美国、英国、其他欧洲国家，南美洲、印度、中国，其他亚洲国家和澳大利亚，那么应该如何设立开发集和测试集呢？建议的是将所有数据随机洗牌，放入开发集和测试集，所以开发集和测试集都有来自八个地区的数据，并且开发集和测试集都来自同一分布，这分布就是所有数据混在一起。6.2 开发集和测试集的大小（Size of dev and test sets）你可能听说过一条经验
复制链接

扫一扫

专栏目录