K8S集群 - cuda-卸载再安装[11.7]

cuda卸载
https://blog.csdn.net/u014090429/article/details/109674648

显卡驱动卸载

卸载命令:

/usr/bin/nvidia-uninstall

详情:
https://blog.csdn.net/m0_46825740/article/details/125448274


查看显卡驱动命令

nvidia-smi

查看还有哪些进程仍在使用nvidia

sudo lsof /dev/nvidia*

记住内核

安装命令

./NVIDIA-Linux-x86_64-515.105.01.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.83.1.el7.x86_64 -k $(uname -r)

详细解释:

CentOS 7 安装 NVIDIA 显卡驱动和 CUDA Toolkit_centos先安装显卡驱动还是先安装cudatoolkit-CSDN博客

禁用默认驱动

centos7篇---禁用默认的驱动nouveau,安装cuda和cudnn_centos禁用nouveau驱动-CSDN博客

lsmod | grep nouveau

vi /etc/modprobe.d/blacklist-nouveau.conf

vim /usr/lib/modprobe.d/dist-blacklist.conf

blacklist nouveau
options nouveau modeset=0

WARNING: nvidia-installer was forced to guess the X library path '/usr/lib64' and X module path '/usr/lib64/xorg/modules'; these paths were not queryable from the system. If X fails to find the NVIDIA X
driver module, please install the `pkg-config` utility and the X.Org SDK/development package for your distribution and reinstall the driver.

ERROR: Unable to load the 'nvidia-drm' kernel module.

ERROR: Installation has failed. Please see the file '/var/log/nvidia-installer.log' for details. You may find suggestions on fixing installation problems in the README available on the Linux driver
download page at www.nvidia.com.

安装日志:

vim /var/log/nvidia-installer.log

安装cuda日志

Ubuntu18.04安装cuda+ [ERROR]: Install of driver component failed.的解决-CSDN博客

不要选择驱动

centos7篇---禁用默认的驱动nouveau,安装cuda和cudnn_centos禁用nouveau驱动-CSDN博客

如果已经安装好了显卡驱动,安装cuda的时候一定不要再选择Driver 

配置环境变量

vim ~/.bashrc

export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_ROOT=/usr/local/cuda

source 

执行GPU报错:

[root@k8s-worker-02 v0.0.1]# docker run --name xxx-gpu-v0.0.1 --gpus all --shm-size 4G -itd xxx-gpu:v0.0.1 /usr/sbin/init

xxxxxx

docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].

离线安装

nvidia-container-runtime-3.9.0-1.noarch.rpm

cd  nvidia-container-runtime

rpm -Uvh --force --nodeps *.rpm

重启docker

systemctl restart docker

  • 16
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这个脚本没有明显的语法错误,但是存在一些问题: 1. 该脚本中的注释符号应该使用“#”,而不是“#######”。 2. 脚本中的模块加载顺序可能存在问题,应该先加载mpi和cuda等计算资源相关的模块,再加载需要的软件环境。 3. 在加载软件环境时,应该使用对应软件的环境变量名,如“AMBERHOME”,而不是“$AMBER_HOME”。 4. 在加载Intel MKL库时,应该指定相应的架构类型,如“intel64”。 5. 在设置CUDA_HOME和LD_LIBRARY_PATH时,应该使用“=”符号而不是“$”符号。 改进后的脚本如下: ``` #!/bin/bash #JSUB -J MD-pingtai #JSUB -n 8 #JSUB -m gpu06 #JSUB -q gpu #JSUB -gpgpu 1 #JSUB -o output.%J #JSUB -e err.%J #############################################集群调取CPU信息####################################### source /hpcfile/jhinno/unischeduler/conf/jobstarter/unisched source /hpcfile/jhinno/unischeduler/conf/profile.unischeduler #########################################加载计算资源相关的模块################################### module load cuda/11.0 module load openmpi/3.0.2 ####################加载需要的软件环境(注意环境变量的名称)################################### export AMBERHOME=/hpcfile/software/amber22 test -f /hpcfile/software/amber22/amber.sh && source /hpcfile/software/amber22/amber.sh module load intel/2016 source /share/software/intel/compilers_and_libraries_2016.2.181/linux/mkl/bin/mklvars.sh intel64 module load python/3.6.6/3.6.6 export CUDA_HOME=/hpcfile/software/cuda/cuda-11.0 export PATH=$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH #############################################执行Python脚本####################################### python 1.py ``` 注:该脚本仅供参考,具体的软件环境、模块加载顺序等可能需要根据实际情况进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值