在用 goreman 管理整个 TiDB 集群的时候,我发现 goreman 的 run stop 功能并不能正常的干掉 TiDB 组件,开始我觉得是我们自己代码的没有,没有很好的处理相关信号,但后来发现,TiDB 这边是压根没有收到信号,所以问题铁定在其他的地方,于是浏览下 goreman 的源码,发现使用的是 /bin/sh -c 的方式来启动的 TiDB 程序,可能就跟这个有关系。
首先,写两个简单的程序,一个是直接启动进程,另一个是使用 /bin/sh -c 的方式启动。简单起见,我们直接 sleep 很长一段时间,然后在 10 秒之后,kill 掉进程。
func child() {
cmd := exec.Command("sleep", "600")
start := time.Now()
time.AfterFunc(10*time.Second, func() { cmd.Process.Kill() })
ecmd.Run()
}
func grand_child() {
cmd := exec.Command("/bin/sh", "-c", "sleep 1000")
time.AfterFunc(10*time.Second, func() { cmd.Process.Kill() })
cmd.Run()
}
启动之后,我们会发现有三个 sleep 进程,其中,31126 是 31124 的子进程。
PPID PID PGID SID TTY