最近在优化Django数据库操作的性能问题,由于Python的GIL限制引入了多进程,优化过程中碰到了非常奇怪的数据库连接丢失问题,导致程序终止运行
errcode is 2013, errmsg is 'Lost connection to MySQL server during query'
排查了很长时间,最后明确导致这个错误的原因跟进程的fork机制有关:fork子进程完全复制父进程的空间
原程序的逻辑是这样的:
1.主进程查询待处理任务数据集
2.然后,创建进程池,并将任务数据集交由进程池处理
也就是说:
1.主进程建立了数据库连接
2.fork子进程的时候也fork了数据库连接(可以理解数据库连接资源是一个引用复用,不确定这样描述是否准确)
3.主进程操作完成,释放了数据库连接,这时子进程在做数据库操作的时候就连接丢失了
解决方案
1.在主进程创建进程池前释放数据库连接(测试时发现不能解决问题)
2.主进程不做数据库操作,子进程做任务抢占
模拟代码
问题复现
在主进程操作数据库,随后创建进程池,并在子进程中进行数据库操作
def process_lost(key):
i = 0
while True:
if i > 5:
return
time.sleep(2)
keys = ReviewRetraceKey.objects.filter(job_id__in=[6631860103316242436]).order_by('-creat