一模一样的环境配置,因为用的是同一个镜像。
一模一样的显卡cuda版本,在服务器A上可以跑,服务器B报这样的错。
所有的参数设置都没有问题,首先不存在内存真的满的问题~
其次,也查了服务器的后台,没有程序在跑
到底是啥问题啊!!!!
小小一个猜测:
使用top检查gpu的时候,发现其中一片显卡的缓存非常大,应该是这么大的缓存占了显卡的运存,导致一直缓存溢出,试了试写入固态的命令也都没有用
是不是这个显卡就是相当于这整个服务器的一个驱动啊?反正这片卡我只能跳过了
一模一样的环境配置,因为用的是同一个镜像。
一模一样的显卡cuda版本,在服务器A上可以跑,服务器B报这样的错。
所有的参数设置都没有问题,首先不存在内存真的满的问题~
其次,也查了服务器的后台,没有程序在跑
到底是啥问题啊!!!!
小小一个猜测:
使用top检查gpu的时候,发现其中一片显卡的缓存非常大,应该是这么大的缓存占了显卡的运存,导致一直缓存溢出,试了试写入固态的命令也都没有用
是不是这个显卡就是相当于这整个服务器的一个驱动啊?反正这片卡我只能跳过了