提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
本文章用于在远程服务器上训练自己的模型时所进行的详细操作步骤。
提示:本文章仅供个人参考,如有错误 还请大家指正。(本文所述 操作,需服务器有完整的conda虚拟环境)
搭建环境可参考以下文章:
链接: link.
一、将项目文件上传到自己新建的文件夹
自己在服务器新建一个文件夹,将写好的项目文件上传到该文件夹。
二、创建screen
1.创建对话窗口
使用screen 创建一个对话窗口,防止断网后重新运行项目;代码指令如下:
screen -S hb
(hb 为自己的对话窗口名字 自己随意命名;下文的hb 均为此意)
创建结束后会自动跳转至新的对话窗口界面。
2.进入运行文件所在的目录
使用 cd 指令 到目录下
cd XXXXXXXXXXXXXXXXX
(我所运行的py文件在 /home/b/hxb/yolov5_smallobject(1)目录下, 故 运行 cd /home/b/hxb/yolov5_smallobject(1);然后自动跳转至该目录。)
3.激活环境
运行指定py文件时,需要先指定所需要的环境。指令
conda activate 环境名
(我所使用的环境为conda 安装的pytorch1.6;故运行:conda activate pytorch1.6。)
4. 运行py文件
执行指令 :
CUDA_VISIBLE_DEVICES=“0, 1” python xxxx.py
0, 1 为指定的GPU编号,来进行联合训练。
(我需要运行的文件为train.py,需要用0 1GPU训练;故需要运行 :CUDA_VISIBLE_DEVICES=0, 1 python train.py)
到此便能够在服务器上运行自己的py文件了。
补充说明:CUDA_VISIBLE_DEVICES=0,1 python xxxx.py 指令有时可能会无效,故推荐下一种用法:
在py文件中加入以下代码:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0, 1"
添加后可直接运行 python xxxx.py
三、screen 补充说明
screen指令可以防止断网后需从头链接服务器进行训练。
screen -ls 可以查询服务器中已经创建的对话窗口
screen -rd hb 重新进入服务器后 用于重新链接到新建的hb窗口
在新建的hb窗口中可使用 Ctrl+a+d 使回话窗口返回上层
具体请参考:
链接: link.