炼丹bug记录

最新推荐文章于 2023-03-14 03:37:54 发布

鹿米lincent

最新推荐文章于 2023-03-14 03:37:54 发布

阅读量166

点赞数

分类专栏：知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slzlincent/article/details/117293198

版权

知识专栏收录该内容

42 篇文章 2 订阅

订阅专栏

1. test或者valid时候，显存爆炸，

怀疑没有清空计算图或者梯度还存着

在循环前面， with torch.no_grad():

2. 训练开启bn和dropout： model.train()

测试关闭 bn和dropout： model.eval()

3。训练加速方法

https://www.zhihu.com/question/274635237/answer/756144739

apex或者新版pytorch的混合精度训练

我自己用过的：

dataparellel或者 DistributedDataParallel

dalaloader设置num_workers 设为gpu数量的4倍, pin_memory= True, drop_last, .cuda(non_blocking= True)

bn<8 可能太小，不稳定

开启 torch.backends.cudnn.benchmark= True

主要： gpu利用率低下，减少gpu cpu之间的数据传输

.cpu() .cuda() .item() .numpy()

可以卷积等的 inplace= true

梯度设none而不是0： .zero_grad(set_to_None= True) 而不是.zero_gard()

关于 dataparellel：

设置devices_ids=[0,1,2...]

设置每个batch的数据模型都to（device）

设置optimizer dataparellel

设置保存model 和optimizer的module

设置 optimizer.module.step（）

和nn.DataParallel说再见

https://zhuanlan.zhihu.com/p/95700549

Pytorch DistributedDataParallel简明使用指南

https://zhuanlan.zhihu.com/p/368916180

pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题

https://github.com/Link-Li/Balanced-DataParallel

https://blog.csdn.net/qq_44846512/article/details/115207166?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-6.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-6.control

4.PyTorch中的contiguous

https://zhuanlan.zhihu.com/p/64551412

r2d2中的 x.continuous().cuda()

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
炼丹bug记录

1. test或者valid时候，显存爆炸，怀疑没有清空计算图或者梯度还存着在循环前面， with torch.no_grad():
复制链接

扫一扫

专栏目录

鹿米lincent CSDN认证博客专家 CSDN认证企业博客

码龄8年

97: 原创

5万+: 周排名

155万+: 总排名

12万+: 访问

: 等级

1717: 积分

45: 粉丝

60: 获赞

120: 评论

422: 收藏

私信

关注

分类专栏

知识 42篇
定位 3篇
pytorch 3篇
深度学习 2篇
MOT 1篇
深度估计 1篇
vio
linux
ROS 8篇
ubuntu 14篇
opencv 5篇
TX2 3篇
yolov3 2篇
slam 8篇
2d-slam 1篇

最新评论

ORB-SLAM2使用TUM深度相机、KITTI单目双目、自己摄像头
qq_52226132: 你好，数据集里面只有rgb.txt，depth.txt没有associations.txt，能发一下association.py文件吗
TX2下使用darknet_ros包在ROS中进行YOLOv3检测
Yumiao0216: 博主您好，我和您是一样的环境下编译YOLOv3，但是我修改Makefile使用GPU之后，检测时的fps并未提升，请问可能是哪里有问题呢？
RESLAM/ REVO 编译实时RGBD基于边缘的slam系统
sybsdcj: 你好，这个问题你解决了吗
colmap 已知pose 重建 kitti数据尝试
Huiyeee: 大佬，我想用kitti自带的相机位姿cam2world转换成colmap的相机位姿格式，请问有什么办法吗
colmap 已知pose 重建 kitti数据尝试
Huiyeee: 我也遇到了这个问题，请问解决了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。