昨天把服务器给整坏了,应该是内核崩溃了,问了售后说是更新次数太多了,导致的系统崩溃,最后没办法了,只能重新装系统,这就导致了系统环境要重新配置,记录一下配置的过程和参考的博客。(由于我是远程连接服务器,且没有图形界面,因此所有的操作都只能用命令行完成。)
安装NVIDIA驱动
自动搜索合适的显卡-安装-重启
>> nvidia smi
https://www.cnblogs.com/stacso/p/14697964.html
配置ssh连接
主机端(服务器):安装ssh-设置账户名称和密码-启动ssh
客户端(自己的笔记本):下载一个Xshell软件,新建-填上主机地址、用户名、密码-连接
https://blog.csdn.net/qq_72935001/article/details/126895952
建立新的用户(自己名下的用户,防止和别人使用混乱了)
>> sudo adduser yourusername
>> vim /etc/sudoers
>> $name ALL=(ALL:ALL) ALL
https://blog.csdn.net/u014217137/article/details/127266582
如何将数据盘进行挂载:
>>df -h (目前还看不到14T的硬盘)
>>lsblk (可以看到,我的机器中/sda是系统盘,/sdb1 /sdc1 /sdd1 /sde1是三个大小均为14T的数据 盘)
>>cd /
>>mkdir data1
>>sudo mount /dev/sdb1 /data1 (将数据盘sdb1挂载在data1目录下)
同上,分别将/sdc1 /sdd1 /sde1挂载在数据盘/data2 /data3 /data4中。
>>df -h (可以看到/dev/sdb1 /dev/sdc1 /dev/sdd1 /dev/sde1显示出来了)
换源
将系统自带的软件源换成清华源,主要是为了后续wget能顺利下载,不会报错
编辑bashrc文件-添加清华源-更新一下source文件
https://blog.csdn.net/m0_37755995/article/details/128906054
安装vim,便于编辑各自文件;
安装CUDA和CUDNN
(1)由于之前有记录服务器安装的cuda型号是11.1,没记录的话还需要自己再去查一下驱动和cuda的对应关系。
有两个地方可能博客里面写的不太行:
>> export PATH=$PATH:/usr/local/cuda/bin
>> export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
cuda下载自己所需的.run文件(nvidia官网,得先注册才能下载,文件较大,下载时间不短)-配置环境
>> nvcc -V
(2)cudnn下载自己所需的.tgz文件(nvidia官网),注意要和cuda版本匹配
https://blog.csdn.net/weixin_46455141/article/details/125507029
安装Anaconda
下载anaconda文件-安装
https://blog.csdn.net/weixin_40964777/article/details/126308001
conda list查看一下已经有了哪些库,没有的库自己conda install xxx既可
安装特定版本的torch和torchvision:
下载对应cuda版本的torch和torchvisionwhl文件,
>> pip install xxx.whl
后续将之前跑通的代码继续debug。。。。。