这个错误折腾了好几天,最后发现是GPU算原因
GPU算力图如下
环境:本地GPU是P40,部署到阿里云P100
python部署是在本地编译后部署到阿里云服务器上
开始解决了Nvidia内核版本,CUDA版本,和python组建的cuda和torch的软件的版本
经过多次修改后环境版本如下:
GPU Type: Tesla P40
Nvidia Driver Version: 535.161.08
CUDA Version: 12.2
CUDNN Version: 8500
Operating System + Version: Ubuntu 22.04
Python Version: 3.9.19torch==2.0.1
torchaudio==2.0.2
torchvision==0.15.2
环境版本没有问题了,后来在网上看到说算力的问题
如上图所示本地P40的算力是6.1,云上P100的算力是6.0 算力降低了
经过多次尝试后,云上版本更改为V100是7.0的算力
注意:本地的P40和云上V100的GPU不是一个系列的版本没有问题;但是注意镜像内不要安装GPU驱动,使用实体主机的驱动版本(这一段一定要注意,我踩了个大坑)
终于成功了,又前进了一步。。。,路途还遥远,继续前行