使用nohup将训练程序后台不间断运行+随时查看训练情况输出与可视化
使用服务器进行远程训练
由于笔者经常需要使用服务器进行训练,且有些模型训练起来需要很长的时间,如Mask模型,故经常需要长期跑程序。由于我使用的是ssh登录,因此断网或者退出账号时程序就会被kill。总结了以下常用的远程训练指令,帮你可以不间断的训练模型,并且随时可以查看模型可视化结果。
nohup指令和查看输出
nohup 是 no hang up 的缩写,就是不挂断的意思。
nohup命令:如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。
在缺省情况下程序的所有输出都被重定向到一个名为nohup.out的文件中。
缺省输出文件的写法
nohup python3 -W ignore -m xxx.py
在这种写法下,所有输出被保存到该目录的nohup.out内,且实时读写,如图,使用ls查看该文件夹下的文件。
指定输出文件的写法
nohup python -u xxx.py > my_out_file.txt 2>&1 &
就会将xxx.py的输出全部存到my_out_file.txt里
和CUDA一起用
有一台服务器,服务器上有