网上看了一圈,说什么调整batchsize啥的,设置多卡啥的,根本不起作用,建议使用torch1.2查一下你是不是to(device)漏了,比如我在transformer Encoder时候忘记把Position编码的参数to(device)了,再torch1.2中就会直接报错,而在torch1.6的版本就会出现上述的错误,死活搞不定!所以可以有个torch1.2的版本搞定了model,再使用torch1.6重新运行,这样不但能使用tensorboard(torch1.2的board不能显示图形),奇怪的错误(torch1.6总会出现奇奇怪怪的错误)也不见了。
Cuda Error 700 内存非法访问问题
最新推荐文章于 2024-03-25 18:40:52 发布
博主遇到在不同PyTorch版本间模型运行出错的问题,主要原因是缺少`to(device)`操作。在torch1.2中,忘记将Position编码参数移到设备上会导致直接报错,而在torch1.6中则出现不明确错误。解决方案是先在torch1.2下修复模型,然后在torch1.6中重新运行。此外,torch1.2的tensorboard无法显示图形,而torch1.6中出现的奇怪错误也不再出现。
摘要由CSDN通过智能技术生成