服务器使用出现的问题记录
1. Anaconda 创建虚拟环境出现问题
解决办法:一开始直接将错误信息上网搜索,发现清一色的博客是说需要修该anaconda的配置文件—~/.condarc 。该文件是根目录下的隐藏文件,记录了anaconda的下载源、虚拟环境存储路径、包缓存路径等信息,按要求修改后没有任何作用。不过有收获的是,将虚拟环境的存储地址和缓存地址修改到容量更大的盘中,避免之后创建更多的虚拟环境,导致当前盘容量不够。折腾半天,ping命令以下查看网络,发现根本没联网。
因为一直使用校园网连接的,团队有人使用了其他网络连接后,下次使用校园网得重新登录才行。
2. 内核版本升级导致显卡驱动不匹配
今天突然出现这个问题,其实还是很好解决的。大概率是内核版本的升级,与之前显卡驱动不匹配导致显卡无法使用。直接查看当前已安装的内核版本及正在使用的内核版本
uname -r //查看当前正在使用的内核版本
rpm -aq |grep kernel-devel //查看已安装的内核版本
查看后发现当前正在使用得内核版本是:3.10.0-1160.25.1.el7.x86_64
原来应该是:3.10.0-1160.21.1.el7.x86_64
已安装的内核版本:3.10.0-1160.21.1.el7.x86_64和3.10.0-1160.25.1.el7.x86_64
直接选定3.10.0-1160.21.1.el7.x86_64为系统启动的默认版本就可以了。
grub2-set-default 'CentOS Linux (3.10.0-1160.21.1.el7.x86_64) 7 (Core)'
重启之后就完成了。
3. 显卡出现问题RuntimeError: CUDA error: all CUDA-capable devices are busy or unavailable。
假设1:以为是代码中有多卡配置导致出现问题,后来修改代码后排除这种假设。
假设2:以为是显卡计算独占设定,通过nvidia-smi发现是Default,排除这种假设。
尝试方法:进入深度学习框架,执行以下命令
torch.cuda.is_available() //是true
很奇怪就是发现显卡不可用。后来用命令查看显卡服务:
systemctl status nvidia-gridd
发现显卡启动服务是失败的。
解决办法:
systemctl restart nvidia-gridd //重启显卡服务
systemctl status nvidia-gridd
成功了!!