pytorch 中遇到的若干bug记录

最新推荐文章于 2024-07-05 01:43:37 发布

Genius Soul

最新推荐文章于 2024-07-05 01:43:37 发布

阅读量201

点赞数

分类专栏：深度学习文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/qq_24681499/article/details/120816314

版权

6 篇文章 0 订阅

订阅专栏

本文探讨了在使用自动混合精度（AMP）训练模型时遇到的问题，描述了一种罕见情况：loss变为-inf并通过sigmoid变为0，导致验证集准确率瞬间归零。作者分析了GradScaler在处理这种非NaN异常时的局限，并提到了可能的原因——不同数据预处理。

摘要由CSDN通过智能技术生成

在使用了AMP (自动混合精度)之后，模型的训练进程偶尔会出现很奇怪的现象。在训练到某个epoch之后，验证集的acc变为0%，经过调试之后发现是AMP的scaler的导致的。一般来说，scale在遇到loss为nan后，会停止本次更新，降低对loss的scale，但是我的代码在运行过程中出现-inf，而在最后经过sigmoid，结果变为0 ，从而导致loss变为常数，而非NaN，所以这当然是有问题的… (补充一下为什么要用scale,当某些计算经过amp变成版精度计算的以后，有一些少于16bit的梯度值可能会直接变为0，从而出现数值计算的上溢或下溢，pytorch使用GradScale来解决UnderFlow问题。具体可参考PyTorch的自动混合精度（AMP）
)
低级错误，验证集和训练集使用了不同的mean和std，导致验证集的指标比训练集低很多。

------------------------- 持续更新ing ---------------------------

关注

专栏目录