【深度学习基础】Epoch,Batch_Size,Iteration 优化相关概念解释

Epoch

一个epoch指代所有的训练数据送入网络中完成一次前向计算及反向传播的过程。

在训练时,迭代训练一次是不够的,往往需要反复多次网络才能较好地拟合收敛,即需要多个epoch。

随着epoch数量的增加,神经网络中权重更新迭代的次数增多,曲线从最开始的不拟合状态,慢慢进入优化拟合状态,最终进入过拟合

epoch的个数是非常重要的。那么究竟设置为多少才合适呢?

恐怕没有一个确切的答案。对于不同的数据库来说,epoch数量是不同的。但是,epoch大小与数据集的多样性有关,多样性越大,epoch应该越大。

Batch_Size

在深度学习的实际应用中,所涉及到的数据往往是比较多的,一个epoch的运算总量往往太大,计算机无法同时负荷,我们会将它分成若干个较小的batch【即所谓的mini-batch,小批量数据处理】。每个batch中的训练样本数量就是Batch Size,即批处理参数。

当然,当数据量比较少时,我们可以直接将batch设为全数据集(Full batch learning)。

优点:

  • 相对海量的的数据集和内存容量,小批量处理需要更少的内存就可以训练网络。

  • 通常小批量训练网络迭代更新速度更快,相同的数据总量的情况下,我们将一个大样本分成11小样本(每个样本100个数据),采用小批量方式训练网络,每次传播后更新权重,就更新了11次网络的(权重)参数;如果在传播过程直接使用整个大样本,我们只会对训练网络的权重参数进行1次更新。

  • 全数据集确定的方向能够更好地代表样本总体,从而能够更准确地朝着极值所在的方向;但是不同权值的梯度值差别较大,因此选取一个全局的学习率很困难。

缺点:

  • 批次越小,梯度的估值就越不准确,在下图中,我们可以看到,与完整批次渐变(蓝色)方向相比,小批量渐变(绿色)的方向波动更大。

  • 极端特例batch_size = 1,也成为在线学习(online learning);线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆,对于多层神经元、非线性网络,在局部依然近似是抛物面,使用online learning,每次修正方向以各自样本的梯度方向修正,这就造成了波动较大,难以达到收敛效果。

Batch size大小的选择也至关重要。为了在内存效率和内存容量之间寻求最佳平衡,batch size应该精心设置,从而最优化网络模型的性能及速度。

蓝色为所有数据一并送入训练,也就是只有1个batch,batch内包含所有训练样本。绿色为minibatch,即将所有数据分为若干个batch,每个batch内包含一小部分训练样本。红色为随机训练,即每个batch内只有1个训练样本。

在这里插入图片描述
蓝色全数据效果更好,当数据量较小,计算机可以承载的时候可以采取这种训练方式。绿色的mini分批次训练精度略有损失,而红色的随机训练,难以达到收敛状态。

思考

1、在计算允许的情况下,是否batch_size越大,收敛效果越好?

2、网络训练时,如何衡量内存的占用情况,还有计算力?有哪些中间量会需要占用内存的?

Iterations

所谓iterations就是完成一次epoch所需的batch个数,也就是batch numbers。

简单一句话说就是,我们有2000个数据,分成4个batch,那么batch size就是500。运行所有的数据进行训练,完成1个epoch,需要进行4次iterations。


谈谈深度学习中的 Batch_Size

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值