这里要说一个比较偶然的错误,会导致worker都不停止。ps会输出unknownError:Could not start gRPC server.
这是由于端口被占用,也就是类似于:
节点名:2223 (比如192.18.49.1:2223,或者1:2223)
其中2223就是端口。如果2223被什么占用了,那么worker跑完就不会停止。
节点不释放,就会空耗资源,就会费钱。
解决方法是开始跑程序就要注意ps的输出,如果提示了unknownError:Could not start gRPC server.就要换个节点,比如
节点名:2333333