Solution: 1. 使用混合精度,添加以下代码: with torch.cuda.amp.autocast(): 2. 将Optimizer的eps(default=1e-8)调大,比如eps=1e-4 optimizer = torch.optim.AdamW(parameters, lr=max_lr, eps=1e-4) Ps: 这样能够一定程度上防止Nan Loss的情况,如果发现跑到一半又出现Nan Loss,可以尝试继续调整eps.