深度学习（DL）基本概念

qingdujun

已于 2023-07-16 22:45:56 修改

阅读量6k

点赞数 3

文章标签： batchsize epoch 动量 learning rate 深度学习

于 2018-06-10 10:41:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingdujun/article/details/80638500

版权

本文详细介绍了深度学习中关键的几个概念：batchsize决定了每次训练的数据量，太大会影响计算效率，太小则可能导致训练缓慢；iteration/step表示数据集被遍历的次数；epochs表示所有样本被训练的完整轮数；learning rate是调整模型学习速度的参数；而momentum是一种优化策略，通过考虑历史梯度来加速训练。理解这些概念对于有效训练深度学习模型至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习中的batchsize、epochs、learning rate、momentum、iteration/step几个术语，这里整理一下，

1.batchsize：批大小，每次训练给神经网络喂入的数据量大小（当然也可以一次将所有样本丢给神经网络）。但是要注意，batchsize并不是越大越好。更大的批量会计算更精确的梯度估计，但是回报却是小于线性的。同样，极小批量通常难以充分利用多核架构。
这里写图片描述
数学基础不好的可能在这里犯糊涂了——一次性喂500个样本并迭代一次，跟一次喂1个样本迭代500次相比，有区别吗？当然有区别，如果用做生意打个比方，那就相当于：

第一种(batchsize=500)：本金100元。第一个样本挣了10元，第二个样本挣了13元，…，第500个样本挣了9元。那么，目前总收入=100元+(10元+13元+…+9元)。注意，本金没汇总前一直是100元。
第二种(batchsize=1)：本金100元。第一个样本挣了10元，目前总收入100元+10元。那么下一批，本金就是110元了…

很显然，使用batchsize=1的时候，资金将会得到更快的迭代，这种方式也被称为随机梯度下降(SGD)。

2.iteration/step：迭代（步），从总样本中每次拿batchsize数据量喂入神经网络，需要step次喂完毕。举个例子，总样本Total Sample=5000个，batchsize=100个，则

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。