当 GPU 的内存不够时，如何使用大批量（large batch size）样本来训练神经网络呢？

最新推荐文章于 2024-05-01 00:03:32 发布

纸上得来终觉浅～

最新推荐文章于 2024-05-01 00:03:32 发布

阅读量2.9k

点赞数

分类专栏：深度学习

原文链接：https://blog.csdn.net/gqixf/article/details/88394661

版权

深度学习专栏收录该内容

79 篇文章 9 订阅

订阅专栏

解决方法 -- 梯度累加（accumulating gradients）

一般在 PyTorch 中，我们是这样来更新梯度的：

在计算梯度的 loss.backward() 操作中，每个参数的梯度被计算出来后，都被存储在各个参数对应的一个张量里：parameter.grad。然后优化器就会根据这个来更新每个参数的值，就是 optimizer.step()。

而梯度累加（accumulating gradients）的基本思想就是，在优化器更新参数前，也就是执行 optimizer.step() 前，我们进行多次梯度计算，保存在 parameter.grad 中，然后累加梯度再更新。这个在 PyTorch 中特别容易实现，因为 PyTorch 中，梯度值本身会保留，除非我们调用 model.zero_grad() or optimizer.zero_grad()。

下面是一个梯度累加的例子，其中 accumulation_steps 就是要累加梯度的循环数：

如果样本特别大，别说 batch training，要是 GPU 的内存连一个样本都不下怎么办呢？

答案是使用梯度检查点（gradient-checkpoingting），用计算量来换内存。基本思想就是，在反向传播的过程中，把梯度切分成几部分，分别对网络上的部分参数进行更新（见下图）。但这种方法的速度很慢，因为要增加额外的计算量。

纸上得来终觉浅～

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
当 GPU 的内存不够时，如何使用大批量（large batch size）样本来训练神经网络呢？

解决方法 -- 梯度累加（accumulating gradients）一般在 PyTorch 中，我们是这样来更新梯度的：在计算梯度的loss.backward()操作中，每个参数的梯度被计算出来后，都被存储在各个参数对应的一个张量里：parameter.grad。然后优化器就会根据这个来更新每个参数的值，就是optimizer.step()。而梯度累加（acc...
复制链接

扫一扫

专栏目录

纸上得来终觉浅～ CSDN认证博客专家 CSDN认证企业博客

码龄9年

151: 原创

17万+: 周排名

84万+: 总排名

87万+: 访问

: 等级

8578: 积分

212: 粉丝

578: 获赞

116: 评论

3234: 收藏

私信

关注

热门文章

分类专栏

语音识别 52篇
linux 3篇
工作
传统图像处理 13篇
数学 4篇
java 40篇
数据结构与算法 14篇
keras 2篇
ocr 2篇
图像处理 56篇
python 15篇
tensorflow 24篇
深度学习 79篇
机器学习 44篇
pandas 1篇
Kaggle 2篇
paper阅读 21篇
其他 39篇

最新评论

基于Kaldi+GStreamer搭建线上的实时语音识别器
m0_75126569: 和你一样
基于Kaldi+GStreamer搭建线上的实时语音识别器
m0_75126569: root@ubuntu:~/kaldi/kaldi-gstreamer-server/test/models# ./download-tedlium-nnet2.sh % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0 0 0 0 0 0 --:--:-- 0:00:20 --:--:-- 0curl: (7) Failed to connect to phon.ioc.ee port 443: Connection refused gzip: stdin: unexpected end of file tar: Child returned status 1 tar: Error is not recoverable: exiting now
基于Kaldi+GStreamer搭建线上的实时语音识别器
小萌新Z: ot@zpq-virtual-machine:/home/zpq/桌面/kaldi-gstreamer-server/test/models# ./download-tedlium-nnet2.sh % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0 0 0 0 0 0 --:--:-- 0:00:21 --:--:-- 0 curl: (7) Failed to connect to phon.ioc.ee port 8080 after 21352 ms: 连接被拒绝这是什么问题
语义分割算法Mask RCNN论文解读
惑许414: Traceback (most recent call last): File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 160, in <module> model = ParallelModel(model, GPU_COUNT) File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 38, in __init__ merged_outputs = self.make_parallel() File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 62, in make_parallel for name, x in zip(self.inner_model.input_names, AttributeError: 'Model' object has no attribute 'input_names' 怎么解决呢请问
python归一化和反归一化
名字都被注册了: 赞同！我的理解是，归一化的数据中每行元素是一个样本，那么每列元素就是不同样本的同一特征。归一化中用到的最大值和最小值是同一特征的。那么最后反归一化的的是n行1列，而不是1行n列，也就是所有样本的y值。这个问题困扰了我很久，希望能对有同样困扰的朋友一些帮助

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。