1 错误描述
今天在调试PyTorch代码时出现“RuntimeError: Found dtype Double but expected Float”的错误,相关提示信息如下
File “/home/…/train.py”, line 78, in main
running_loss = trainer.train_one_epoch(epoch, qa=qa)
File “/home/…/model/…py”, line 347, in train_one_epoch
loss.backward()
File “/home/…/software/python/anaconda/anaconda3/envs/conda-general/lib/python3.7/site-packages/torch/tensor.py”, line 221, in backward
torch.autograd.backward(self, gradient, retain_graph, create_graph)
File “/home/…/software/python/anaconda/anaconda3/envs/conda-general/lib/python3.7/site-packages/torch/autograd/init.py”, line 132, in backward
allow_unreachable=True) # allow_unreachable flag
RuntimeError: Found dtype Double but expected Float
可以看到这是一个跟数据类型相关的错误;
2 相关资料
感谢网友lcqin111提供的资料——《Pytorch: RuntimeError: expected Double tensor (got Float tensor)》
里面对这个问题进行了解释。
3 解决方案
其实这个问题产生的原因就是数据类型不一致,比较solid一点的方法,就是从报错的地方开始一点一点调试代码,看看参与运算的张量是否存在类型不同的情况,例如:
如果a[FloatTensor]和b[DoubleTensor]是两个参与运算的张量,且有运算代码“loss = criterion(a,b)”,则会引发上面的问题。
所以可以从出错的代码位置一步步进行调试;
其实,最主要的原因还是张量类型不一致,所以实际上将张量类型统一就可以了,
可以使用代码:
torch_tensor = torch_tensor.float()
3.1 小提示——使用double()则会占用很多显存
南溪自己试过用double()进行运算,不过这样显存占用会增大许多,而很可能出现显存爆炸的情况,所以最后还是使用FloatTensor类型;