参考:https://blog.csdn.net/maihilton/article/details/82781897
一、问题描述昨天使用putty远程登录到GPU服务器上,训练一个模型。今早上训练到130多epoch的时候,断网了。结果就没有训练完。昨晚一晚上白跑了。。。。解决方法之一就是训练的函数里面有断点续训的功能,但是我没有写。
今天介绍第二个解决方法,就是希望断网之后,服务器还是能够继续执行,怎么做呢?
二、解决方法借助 nohup 和 & 命令来实现 命令如下: nohup 要执行的命令 &
这样,命令就会放到后台执行了。当远程连接断开的时候,程序仍然还在运行。
怎么查看呢? 有两个命令可以来查看,ps 和 jobs。区别在于 jobs 只能查看当前终端后台执行的任务,换了终端就看不见了。而ps命令适用于查看瞬时进程的动态,可以看到别的终端的任务。
也就是说,如果当前终端还没关掉,就可以用jobs查看。如果换了一个终端,就只能用ps看了。
|