配置: python 3.9.0,torch2.0.1+cu118
背景: 一直使用这个配置训练都没问题。搁置了一个月之后,再次使用就显示报错“Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.”
过程: 尝试了网上的各种方法都无法解决,比如降低batchsize(之前设置128也成功跑完,现在设为16也无法跑完)、各种意义上的重装重启、设torch.backends.cudnn.enabled = False
等等都无法解决。
- 可能是版本问题,但尝试升级到2.1和2.2或者降低版本到1.11等,但没什么用。
悟道: 不是提示out of memory
吗?点开任务管理器,发现每次都是提示这个问题都是因为爆显存了orz(但之前不会啊…
解决: 降显存!加了几个torch.cuda.empty_cache()
,暂时没出现问题,能用就行🤪🤪