服务器使用出现的问题记录(持续记录更新)

服务器使用出现的问题记录

1. Anaconda 创建虚拟环境出现问题

在这里插入图片描述
解决办法:一开始直接将错误信息上网搜索,发现清一色的博客是说需要修该anaconda的配置文件—~/.condarc 。该文件是根目录下的隐藏文件,记录了anaconda的下载源、虚拟环境存储路径、包缓存路径等信息,按要求修改后没有任何作用。不过有收获的是,将虚拟环境的存储地址和缓存地址修改到容量更大的盘中,避免之后创建更多的虚拟环境,导致当前盘容量不够。折腾半天,ping命令以下查看网络,发现根本没联网。

因为一直使用校园网连接的,团队有人使用了其他网络连接后,下次使用校园网得重新登录才行。

2. 内核版本升级导致显卡驱动不匹配

在这里插入图片描述
今天突然出现这个问题,其实还是很好解决的。大概率是内核版本的升级,与之前显卡驱动不匹配导致显卡无法使用。直接查看当前已安装的内核版本及正在使用的内核版本

uname -r   //查看当前正在使用的内核版本
rpm -aq |grep kernel-devel   //查看已安装的内核版本

查看后发现当前正在使用得内核版本是:3.10.0-1160.25.1.el7.x86_64
原来应该是:3.10.0-1160.21.1.el7.x86_64
已安装的内核版本:3.10.0-1160.21.1.el7.x86_64和3.10.0-1160.25.1.el7.x86_64

直接选定3.10.0-1160.21.1.el7.x86_64为系统启动的默认版本就可以了。

grub2-set-default 'CentOS Linux (3.10.0-1160.21.1.el7.x86_64) 7 (Core)'

重启之后就完成了。

3. 显卡出现问题RuntimeError: CUDA error: all CUDA-capable devices are busy or unavailable。

假设1:以为是代码中有多卡配置导致出现问题,后来修改代码后排除这种假设。
假设2:以为是显卡计算独占设定,通过nvidia-smi发现是Default,排除这种假设。
尝试方法:进入深度学习框架,执行以下命令

torch.cuda.is_available()  //是true

很奇怪就是发现显卡不可用。后来用命令查看显卡服务:

systemctl status nvidia-gridd

发现显卡启动服务是失败的。
在这里插入图片描述
解决办法

systemctl restart nvidia-gridd //重启显卡服务
systemctl status nvidia-gridd

成功了!!
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值