深度学习入门笔记手稿(一)数据集的划分

深度学习入门笔记手稿(一)数据集的划分

简介

神经网络学习的过程,很多人都看成是一个黑箱的过程,对于其中超参数的调试,正则化,以及优化,都理解的不清楚,很多同学都是知道怎样去使用,但是不懂为什么会有那样的效果。通过学习吴恩达老师的课程,我想跟大家分享一下自己对于这里的理解,应该对大家的学习会很有帮助。

训练/验证/测试集

搭建合理的训练验证集和测试集能加速网络的形成,也更有效的衡量算法偏差和方差。
在配置训练,验证,测试数据集过程中做出正确决策。分别作用如下:

验证集:验证选择模型。测试集:正确评估分类器的性能即对网络系统做出无偏评估

具体过程:
通过训练集执行训练算法,通过验证集选择最好的模型,充分验证确定好模型后就可以在测试集上进行评估,为了无偏评估算法在小数据时代常见的做法是将数据三七分。

一般数据量在1000,10000等级时如下分配即可:70%的训练集,30%的测试集,如果没有明确设置验证集,也可以60%训练集,20%验证集,20%测试集。

在大数据的今天数据量是百万级别的,验证集和测试集占数据总量的比列趋向于更小。

比如有100万条数据,拿出1万作为验证集即可,找出最好的1-2个模型,同样根据选择的分类器,1万条数据便可评估单个分类器,此时的比列为98%,1%,1%。数据量越大比列可能更小。

关于数据集的划分要注意的几个问题:
1.要确保验证集和测试集数据来自同一分布
同一分布的理解:数据一,分辨率高,像素高,数据二 分辨率低,像素低,数据一二 属于不同分布。

2.也可以没有测试集(若无需做无偏评估)
在训练集上训练,验证集上评估,因为验证集已经涵盖测试集数据,这种情况验证集被称为测试集。

搭建合理的训练验证集和测试集能加速网络的形成,也更有效的衡量算法偏差和方差。我们在下一篇博客中讲解偏差和方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值