背景
在深度学习炼丹过程中,总会遇到各种奇怪问题,这个时候总会在csdn和知乎平台找到答案,那每次遇到的问题是解决了,但没有记录起来,确实太可惜,因为未来某个时间或者某个人会遇到类似问题,所以在这片文章专项整理,pytorch、python、conda、pip等问题,希望能给大家更多帮助
pytorch
问题1:cuda error:device-side assert triggered
如果报错在你自己的代码中,这一般和自己的代码逻辑错误有关了:
1.检查代码,看是否是训练时loss成为nan,可以更换词向量的拼接方式等。
2.如果是分类任务,可能是标签个数不对应。
参考一篇文章,可以尝试在代码中加入:torch.backends.cudnn.enable =True, torch.backends.cudnn.benchmark = True。(对于我的问题没有用)
这种问题操作tensor异常,如数组越界、精度不匹配等
问题2:cuda out of memory
- 改小batch_size
- 在报错的地方加上这一句torch.cuda.empty_cache()
- 加上这一条语句with torch.no_grad():
- 加上这么一句model.eval()
- loss和评价指标强制转换为float()类型的,或者在每个epoch的最后,都将loss删掉。
- 将"pin_memory": True改为False,具体原因原博:
pin_memory就是锁页内存,创建DataLoader时,设置pin_memory=True,则意味着生成的Tensor数据最开始是属于内存中的锁页内存,这样将内存的Tensor转义到GPU的显存就会更快一些。
主机中的内存,有两种存在方式,一是锁页,二是不锁页,锁页内存存放的内容在任何情况下都不会与主机的虚拟内存进行交换(注:虚拟内存就是硬盘),而不锁页内存在主机内存不足时,数据会存放在虚拟内存中。显卡中的显存全部是锁页内存,当计算机的内存充足的时候,可以设置pin_memory=True。当系统卡住,或者交换内存使用过多的时候,设置pin_memory=False。因为pin_memory与电脑硬件性能有关,pytorch开发者不能确保每一个炼丹玩家都有高端设备,因此pin_memory默认为False。
参考资料:https://blog.csdn.net/xiyou__/article/details/118529350
问题3:nn.TransformerEncoder 使用 src_key_padding_mask 时出现nan
出现nan的原因来自于src_key_padding_mask,src_key_padding_mask 是一个二值化的tensor,在需要被忽略地方应该是True,在需要保留原值的情况下,是False。检查发现src_key_padding_mask全为True,此时会导致编码后结果全为nan。
解决方法是更新mask或不使用mask。
问题4:Tensor must be contiguous
解决方法
batch_data[1].permute([1,0,2]).contiguous()
参考资料:
https://www.jianshu.com/p/5167