在跑一个Transformer的代码时,出现了这个错误。这个错误信息非常奇怪,通过Debug发现,模型的前向传播是正常的,损失也能计算出来,但是一开始反向传播就出问题了。经过尝试,发现是batch_size过大,把它改小就可以了。