在微调Qwen大模型的时候,由于训练时间比较长,因此使用nohup命令想把用于训练的shell脚本挂在后台不挂断运行,想着即使是liunx终端关闭,也能在后台训练。
我使用FinalShell连接Linux服务器,最初使用
nohup sh finetune.sh
没想到终端关闭后,训练进程竟然关闭了,以前nohup命令执行Python脚本训练模型的时候重来没有出现过这种情况!以前都是执行
nohup python train.py
然后直接关闭终端,训练进程在后台正常运行。 但是到了shell脚本这里就翻车了,还报了错:
Process xxxx got signal: 1
原来,是由于使用nohup命令不规范所致。
后台 sh 运行shell脚本,即使关闭当前的终端也可以运行的话,需要nohup命令和&命令。
(1)&命令
功能:加在一个命令的最后,可以把这个命令放在后台执行。但是关闭终端后,进程会退出
(2)nohup命令
功能:不挂断的运行命令
例如:利用nohup命令后台运行python脚本的正确方式为:
nohup python train.py > train.log 2>&1 &
同理, 利用nohup命令后台运行shell脚本的正确方式为:
nohup sh train.sh > train.log 2>&1 &
(1) 1是标准输出(STDOUT)的文件描述符,2是标准错误(STDERR)的文件描述符
1> train.log 简化为 > train.log,表示把标准输出重定向到 train.log 这个文件
(2) 2>&1 表示把标准错误重定向到标准输出,这里&1表示标准输出 , 为什么需要将标准错误重定向到标准输出的原因,是因为标准错误没有缓冲区,而STDOUT有。 这就会导致 commond > train.log ,2> train.log 文件 train.log被两次打开,而STDOUT和 STDERR将会竞争覆盖,这肯定不是我们想要的
至此,训练进程在后台不挂断运行,此时一个非常重要的步骤是,在退出终端的时候,我们需要在终端中(我用的是FinalShell,用的比较多的还有Xshell)输入exit这个命令来退出shell,否则进程照样会关闭。强烈建议执行完nohup命令,检查进程在后台运行无异常错误之后,立即在终端只输入exit退出终端,之后再重连,否则执行完nohup命令后又去在终端中做其他的工作,到最后关闭终端的时候又忘了需要使用exit命令退出,而又直接叉掉、关闭终端窗口,我就吃过这样的亏........