远程服务器nohup后台训练网络,再也不用怕由于断网而间断训练

使用服务器进行远程训练

由于经常需要使用服务器进行训练,且有些模型训练起来需要很长的时间,故经常需要长期跑程序。
由于我使用的是ssh登录,因此断网或者退出账号时程序就会被kill。总结了以下常用的远程训练指令,帮你可以不间断的训练模型,并且随时可以查看模型可视化结果。
所以后来发现了一个方法: 服务器后台训练神经网络,即使断网了,Xshell断了也没有关系了。

从网上搜了一些实现上面的方式, 什么screen, tmux这一些都比较好用,但是安装的时候我发现我不是root, 也没有权限,竟然安装不上, 所以我又发现了一个Linux自带的一个命令:

nohup命令

nohup指令和查看输出
nohup 是 no hang up 的缩写,就是不挂断的意思。

nohup命令:如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。

在缺省情况下程序的所有输出都被重定向到一个名为nohup.out的文件中。

解决了我的烦恼,所以我记录一下这个是怎么用的, 把命令放入后台非常之简单:

nohup jupyter notebook --config ~/.jupyter/jpconfig.py &

只需要在我打开jupyter notebook前面加一个nohup,后面加一个&, 这样就把这个操作放入了后台运行,可以用jobs -l看到这个进程

当然,我们得记得训练完了之后,就关闭这个后台进程, 使用的命令是:

kill -9 PID

实时查看out

使用vim nohup.out查看该文件。
为了实时查看输出,在文件内使用 Shift + G的组合键快速跳到文件末尾。
跳到指定行:直接:+数字
这个PID就是上面的那个进程号3905. 这个怎么找呢? 就是jobs -l 然后看看哪个进程号是训练网络的那个命令, 用完了杀死这个进程。

注意,如果是当前的xshell断了,我们重新连上之后, jobs -l命令就不好使了,这时候得用ps ux

linux下杀死nohup提交到后台运行的程序

方法1:
如果没有退出客户端界面,可以先通过 “jobs” 命令查看程序是否在运行,此时只有序号没有PID号;
输入命令 “jobs -l” 会显示程序的PID号,然后通过 “kill -9 PID”杀死程序;
输入命令 “jobs” 查看程序是否被杀死。
方法2:
如果退出过客户端界面,输入 “jobs” 命令查不到正在运行的程序;
输入 “ps ux” 来查看所有程序的进程号PID,然后再通过 “kill -9 PID” 杀死程序;
输入 “ps ux” 来查看程序是否被杀死。
再介绍一个nohup.out维护管理方法(清空nohup.out), 因为我们发现,后台运行的这个jupyter notebook会把那些日志,就是我们平时启动jupyter notebook的那一串东西输出到了一个nohup.out文件中了。 如果出现了超大号的文件简直是令人讨厌的事情,而且nohup.out会一直一直自己增长下去,如果你的服务器硬盘不给力的话,很容易把应用也挂掉(硬盘没空间 ,啥都玩不转),但是又不能一味的直接删。因为直接删除,可能会造成应用无法打印后续的错误日志,该问题常见于weblogic服务器,jboss服务器等这些大型中间件,这个在生产环境上要尤为注意。

清空nohup.out

因此就有了我们不停止服务直接,清空nohup.out文件的方法。
两个可以不用停止WEB服务就可以清空nohup.out的命令。

第一种:cp /dev/null nohup.out
第二种:cat /dev/null > nohup.out

转载学习自
https://blog.csdn.net/weixin_46233323/article/details/104399179
https://blog.csdn.net/wuzhongqiang/article/details/105882836

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值