连接终端软件:Xshell
服务器代码编辑器:Vscode
关于如何在Vscode中修改服务器上的代码,可以参见此篇博客:vscode连接远程服务器(傻瓜式教学)_chls的博客-CSDN博客_vscode连接远程服务器
0.anconda下载与配置
conda 下载地址(官网): Anaconda | The World's Most Popular Data Science Platform
选择linux版本
复制此链接,在服务器中输入命令:
wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh
(修改为你的下载链接)
下载完成后,你会在当前目录下看到.sh文件 在命令行中输入命令:
bash ********.sh (具体的文件名,可用tab补全)
然后不断enter + yes
安装完成后,输入
vim ~/.bashrc
进入环境变量编辑添加界面
按i进入编辑模式,在最后一行加上
export PATH=$PATH:/home/******/anaconda3/bin
(这里的****和你的电脑路径不同,记得自己修改)
然后输入 :wq 保存并退出
source ~/.bashrc
激活刚才的设置
1.环境配置与激活
创建环境:conda create -n xxx(环境名称,自己取)
conda create -n xxx python=xxx(python版本)
删除环境:
conda remove -n xxx --all
一个查看不同版本torch的网址https://download.pytorch.org/whl/torch_stable.html
2.基本操作命令
pip list 和conda list 区别在于 ,前者只展示当前虚拟环境中的包,而后者则会展示当前虚拟环境以及关联文件下的包,详情见:同一个虚拟环境下的conda list和pip list里的包不一样,这是为什么,它们有什么区别_程序猿的探索之路的博客-CSDN博客_conda list
cd .. 打开上级文件夹
cd 来到根目录
ls 展示当前文件夹下所有文件
nvidia-smi 观测当前服务器显卡运行情况
watch -n 0.5 nvidia-smi 以0.5s的刷新率,实时观测显卡的运行情况
kill 杀掉相关进程
后台挂起模式来运行指令 :
nohup 指令> logs/2022-9-26-reproduce.log 2>&1&
观测某一log文件对应的程序的运行情况:
tail -f 2022-9-26-reproduce.log
登陆校园网: curl --silent -d "user=学号&pass=密码" http://**.**.**.**/login
登出:curl --silent http://**.**.**.**/logout
3.遇到的GPU相关问题
(1)CUDA error:invalid device ordinal
解决方案:在scripts文件夹的bash文件中,找到语句
python ./scripts/train.py \
在这之前添加语句
CUDA_VISIBLE_DEVICES=2,3
从而指定使用的CPU,无需再.py文件中添加任何语句
(将CUDA_VISIBLE_DEVICES=2,3 在命令行中,程序运行指令前添加时,有时还是会出现报错)
(2)broken pipe
检查代码,再次运行
(3)CUDA error:out of memory
依旧是观测服务器上显卡的运行状态,找到为占用的卡并指定、运行,代码同问题(1)
(4)RuntmieError:Address already in use
查看进程,发现这时正在运行相关程序,kill杀死进程,然后重新运行
4.遇到的其他问题
(1)conda install 时,channels不可用: pip install
引用:
conda常用命令:安装,更新,创建,激活,关闭,查看,卸载,删除,清理,重命名,换源,问题_阿尔发go的博客-CSDN博客_conda更新包命令