RuntimeError: CUDA error: device-side assert triggered
terminate called after throwing an instance of ‘c10::Error’
/c10d/NCCLUtils.hpp:155, unhandled cuda error, NCCL version 2.7.8
分析: 这种报错通过查找博客,发现应该是代码实现中某些地方出了bug,比如label越界,sqrt 内容小于0等。但是笔者从另一个角度给可能存在的bug, 就是分类模型输出的张量长度与数据集类别不符。比如我有1000个类,但是模型输出只有10个,那么在计算crossentropy的时候就会出现错误。