[深度学习笔记一] batch大小对训练的影响

最新推荐文章于 2024-04-14 12:17:22 发布

小牛有梦想

最新推荐文章于 2024-04-14 12:17:22 发布

阅读量999

点赞数 2

分类专栏：机器学习文章标签：机器学习

原文链接：https://www.zhihu.com/question/32673260

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    batch的选择，决定的是梯度下降的方向。
对小的数据集，可以采用Full Batch Size,这样可以更加准确地找出最佳的梯度方向。但是不同的权重的梯度值差距巨大，因此选择全局学习率困难。可以使用Rprop单独更新各权值
对大的数据集，全部载入数据，会被内存大小限制，Rprop会因为采样差异性，导致梯度互相抵消。
在合理范围内，增大batch，可以提高内存利用率，更快地跑完一次数据集，下降方向更准，减少震荡。
盲目增大batch,内存容量限制，学习的比较粗糙，精度会较低，增大到一定程度，下降的方向基本不变。
batch太小，收敛较慢。虽然batch小的时候，随机性大一些，有时候会有更好的表现
如果增加了学习率，batch size最好随着增加，这样收敛更稳。
增大batch，等效于衰减学习率。较大的学习率有更好的泛化能力，呼应第5点。batch增大会降低精度
随着batch normalization的普及，一般采用较大的batch size,较小的batch size之后做 batchnorm会导致mean和variance偏移。

                

小牛有梦想

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[深度学习笔记一] batch大小对训练的影响

batch的选择，决定的是梯度下降的方向。对小的数据集，可以采用Full Batch Size,这样可以更加准确地找出最佳的梯度方向。但是不同的权重的梯度值差距巨大，因此选择全局学习率困难。可以使用Rprop单独更新各权值对大的数据集，全部载入数据，会被内存大小限制，Rprop会因为采样差异性，导致梯度互相抵消。在合理范围内，增大batch，可以提高内存利用率，更快地跑完一次数据集，下降方...
复制链接

扫一扫