问题:k8s pods中用户执行的job经常要跑多线程,所以会使用 &方式,这时候job直接执行完当前shell退出了,造成用户实际执行的任务没有执行。
分析:此问题刚开始采用jobs方式判断,发现服务器在脚本里执行jobs是可以调出后台进程的,而在pods中却不行。例子如下:
服务器:
[root@node241 ~]# cat a.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done
[root@node241 ~]# cat c.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done
[root@node241 ~]# cat b.sh
sh a.sh&
sh c.sh&
echo $(jobs)
[root@node241 ~]# sh b.sh
[1]- Running sh a.sh & [2]+ Running sh c.sh &
[root@node241 ~]# 0
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
pods中
root@dev:~# cat a.sh
i=0
while [ $i -le 5 ]
do
sleep 1
echo $i
i=$(($i+1))
done
root@dev:~# cat d.sh
sh a.sh&
echo $(jobs)
root@dev:~# sh d.sh
root@dev:~# 0
1
2
3
4
5
此时job脚本中通过jobs命令判断后台进程是否执行完毕是失败的,这点服务器和容器中还是有区别的。
问题解决:
在job脚本中采用wait命令,则问题解决:
wait方式
root@dev:~# cat a.sh
i=0
while [ $i -le 5 ]
do
sleep 1
echo $i
i=$(($i+1))
done
root@dev:~# cat c.sh
i=0
while [ $i -le 10 ]
do
sleep 1
echo $i
i=$(($i+1))
done
root@dev:~# cat b.sh
sh a.sh&
sh c.sh&
wait
echo hh
root@dev:~# sh b.sh
0
0
1
1
2
2
3
3
4
4
5
5
6
7
8
9
10
hh
此时wait %n中n指的是后台进程的任务号,而不是pid,等该后台进程执行完毕,当前脚本才退出。要彻底解决所有后台进程结束才推出就改为wait,wait不加参数指等待所有后台进程
其中 echo $(jobs -p)实际上也无法输出,但是wait命令却能获得这个值。
wait方式完美解决了用户job无法后台多线程启动的问题。