场景描述
在实现kafka消息的多进程消费时(即主进程用来获取消息,每条消息都会新起一个子进程来执行具体的业务逻辑),存在新起一个子进程时会消除系统中遗留僵尸进程的情况,具体问题如下所述:
a) 当消费一条消息时会生成一个子进程,且子进程结束后会变成僵尸进程;当再消费一条消息时,之前遗留的僵尸进程会消除,同时重新生成一个子进程来执行业务逻辑,结束后又变成僵尸进程。(以此类推)
b) 如果一次性消费多条消息,则会一次性生成多个子进程,且运行结束后会多个子进程均会变成僵尸进程;当再消费一条(多条)消息时,之前系统中遗留的多个僵尸进程均会被清除,并重新产生一个(多个)子进程来执行业务逻辑,结束后又会变成一个(多个)僵尸进程
此应用场景的代码是基于未主动剔除僵尸进程的前提下实现的,重点讨论僵尸进程的自动消除的原因;样例代码如下所示(若要探究如何消除僵尸进程,可详见传送门):
# -*- coding: utf-8 -*-
import multiprocessing
import os
import time
from kafka import KafkaConsumer
class ConsumerUtil:
def __init__(self, broker_list, topic_name, group_name='consumer_group_1', api_version='0.10', auto_offset_reset='latest'):
self.broker_list = broker_list
self.topic_name = topic_name
self.group_name = group_name
self.api_version = api_version
self.auto_offset_reset = auto_offset_reset
self.consumer = KafkaConsumer(self.topic_name, group_id=self.group_name, bootstrap_servers=self.broker_list, enable_auto_commit=True, api_version=self.api_version, auto_offset_reset=self.auto_offset_reset)
def consumer_fun(self, message_consumer):
for msg in self.consumer:
message_consumer(msg.value)
class MainProcess:
def __init__(self, broker_list, topic_name):
self.broker_list = broker_list
self.topic_name = topic_name
def consume_task(self, msg):
p = ChildProcess(msg)
print('main process fork a new child process')
p.start()
def excutor(self):
print('main process pid={0}, ppid={1} Begin'.format(os.getpid(), os.getppid()))
ConsumerUtil(self.broker_list, self.topic_name).consumer_fun(self.consume_task)
print('main process pid={0}, ppid={1} End'.format(os.getpid(), os.getppid()))