如何查找解决torch_lightning训练输出出现nan的问题

最新推荐文章于 2024-10-08 17:20:26 发布

CUHK-SZ-relu

最新推荐文章于 2024-10-08 17:20:26 发布

阅读量869

点赞数

文章标签：人工智能 python 深度学习

本文链接：https://blog.csdn.net/qq_43210957/article/details/131283957

版权

要确定问题出在哪里？我们需要理解出现一个nan的几种流程：

这是最简单的情况，只要检查一下输入就行了。

也就是网络设置的不好，除以0了或者是给负数取了log，一般官方的库都充分考虑了计算安全问题，就看看自己的代码就可以了。

就是你这个损失函数在回传梯度的时候他直接莫名其妙开始算的特别大，例如发生了梯度爆炸

你可以采用如下参数设置查看是否发生这个问题：

trainer = pl.Trainer(
	# 其他参数已经被省略
    track_grad_norm=2.0,  # 梯度用几范数显示
)

通过这个方式你可以看到梯度情况：

如果特别大，那么可能是发生了梯度爆炸，这时你可以采用下面设置解决：

trainer = pl.Trainer(
	# 其他参数已经被省略
	gradient_clip_val=1e5,  # 进行梯度裁剪，超过这个值的会被强制改写成这个值，相当于torch.clip     
)

如果直接没有了，也就是一训练就是nan，可能是你设置的函数不可导，这就是一个数学问题了，需要你自行排除一下