深度学习踩坑经验沉淀【持续更新】

stark_summer

已于 2023-06-16 21:40:34 修改

阅读量2k

点赞数 3

分类专栏：机器学习文章标签：深度学习 pytorch 人工智能

于 2023-05-21 22:25:54 首次发布

本文链接：https://blog.csdn.net/stark_summer/article/details/130796106

版权

本文记录了深度学习实践中遇到的PyTorch相关问题，包括CUDA错误、内存溢出、TransformerEncoder的使用陷阱、Tensor连续性问题、模型加载后的优化器错误、apex导入问题、accelerate库错误以及conda和pip安装问题等，提供了解决方案和参考链接。

摘要由CSDN通过智能技术生成

背景

在深度学习炼丹过程中，总会遇到各种奇怪问题，这个时候总会在csdn和知乎平台找到答案，那每次遇到的问题是解决了，但没有记录起来，确实太可惜，因为未来某个时间或者某个人会遇到类似问题，所以在这片文章专项整理，pytorch、python、conda、pip等问题，希望能给大家更多帮助

pytorch

问题1：cuda error:device-side assert triggered

如果报错在你自己的代码中，这一般和自己的代码逻辑错误有关了：
1.检查代码，看是否是训练时loss成为nan，可以更换词向量的拼接方式等。
2.如果是分类任务，可能是标签个数不对应。
参考一篇文章，可以尝试在代码中加入：torch.backends.cudnn.enable =True, torch.backends.cudnn.benchmark = True。（对于我的问题没有用）
这种问题操作tensor异常，如数组越界、精度不匹配等

问题2：cuda out of memory

改小batch_size
在报错的地方加上这一句torch.cuda.empty_cache()
加上这一条语句with torch.no_grad():
加上这么一句model.eval()
loss和评价指标强制转换为float()类型的，或者在每个epoch的最后，都将loss删掉。
将"pin_memory": True改为False，具体原因原博：
pin_memory就是锁页内存，创建DataLoader时，设置pin_memory=True，则意味着生成的Tensor数据最开始是属于内存中的锁页内存，这样将内存的Tensor转义到GPU的显存就会更快一些。
主机中的内存，有两种存在方式，一是锁页，二是不锁页，锁页内存存放的内容在任何情况下都不会与主机的虚拟内存进行交换（注：虚拟内存就是硬盘），而不锁页内存在主机内存不足时，数据会存放在虚拟内存中。显卡中的显存全部是锁页内存,当计算机的内存充足的时候，可以设置pin_memory=True。当系统卡住，或者交换内存使用过多的时候，设置pin_memory=False。因为pin_memory与电脑硬件性能有关，pytorch开发者不能确保每一个炼丹玩家都有高端设备，因此pin_memory默认为False。
参考资料：https://blog.csdn.net/xiyou__/article/details/118529350

问题3：nn.TransformerEncoder 使用 src_key_padding_mask 时出现nan

出现nan的原因来自于src_key_padding_mask，src_key_padding_mask 是一个二值化的tensor，在需要被忽略地方应该是True，在需要保留原值的情况下，是False。检查发现src_key_padding_mask全为True，此时会导致编码后结果全为nan。
解决方法是更新mask或不使用mask。

问题4：Tensor must be contiguous

解决方法

batch_data[1].permute([1,0,2]).contiguous()

参考资料：
https://www.jianshu.com/p/5167

最低0.47元/天解锁文章

stark_summer

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录