使用uwsgi结合Flask多进程调用TensorFlow模型推理时服务卡住

最新推荐文章于 2024-07-19 11:24:38 发布

LiangJun.py

最新推荐文章于 2024-07-19 11:24:38 发布

阅读量3.1k

点赞数 3

分类专栏：深度学习 TensorFlow

本文链接：https://blog.csdn.net/qq_26535271/article/details/103032798

版权

TensorFlow 同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

深度学习

13 篇文章 0 订阅

订阅专栏

使用Flask对TensorFlow训练后的模型进行服务器部署时，想使用uwsgi设置多进程的方式解决发布服务以解决高并发。服务写好后使用uwsgi进行多进程发布后发现运行sess.run调用模型推理时服务会卡住无法运行，查看后台uwsgi进程后会发现仅剩一个uwsgi服务，其他的uwsgi进程已经僵死。

一开始纠结可能是tf的问题，尝试了很多方法将模型调用通过类创建后还是不能解决该问题。最后怀疑是uwsgi造成的。便查找uwsgi相关问题，通过该博客https://www.cnblogs.com/lyssym/p/11643256.html确定原因是uwsgi采用多线程调用Flask服务，即对于上述全局的模型，若是初始化后，会被每一个线程复制一次，即每个线程会有一个自己独立的全局图模型，但在后续调用服务时，会导致session的阻塞。

解决方案：使上述所有的线程共享同一个全局的图模型，即不在多个线程中进行复制，可基于Flask调用钩子函数before_first_request加载全局的图模型，从而解决上述问题。

因而在程序中我加上钩子函数before_first_request后，重新发布服务，uwsgi多个进程运行正常未出现卡住导致进程僵死。

修改后的部分Flask发布代码如下：

import os, time
import sys
import time
import flask
import logging
import logging.config
from flask import request
import service_tensorflow_class as service
import base64
import json

#使用uwsgi运行时去掉下面这行注释
#service.init()
#os.environ["CUDA_VISIBLE_DEVICES"] = "1,2,3,4"
app = flask.Flask(__name__)


detect_class = None
@app.before_first_request
def init():
    print('----init before_first_request --')
    global detect_class
    detect_class = service.pbInference()


@app.route('/volleyball/predict', methods=['GET', 'POST'])
def call_service():
    print('call service start')
    print(request.headers)
    code, input_url, task_id = analy_header(request.headers)
    result_label, result_score = '', 0.0
    if code == '0000':
        try:
            print('调用AI Service')
            #sess = service.model()
            #result_label, result_score = service.service(task_id, input_url)
            t1 = time.time()
            result_label, result_score = detect_class.service(task_id, input_url)
            print('AI 服务时间 inference_time: ', time.time() - t1)
            print('AI 服务返回result_label:%s'%result_label)
            print('AI 服务返回result_score:%s'%result_score)
        except Exception as e:
            code = '2016'
            print('AI内部逻辑异常:%s'%e)
    print('call service end')
    resp = flask.make_response()
    resp.headers = pack_result(result_label,result_score,task_id,code)
    print('resp.headers:',resp.headers)
    return resp
        
if __name__ == '__main__':
    # service.init()
    app.run(host='0.0.0.0', port=8000, debug=False, processes=True, threaded=False)
    # app.run(debug=True)

TensorFlow调用pb的方法可参考我之前的文章，最后再次感谢博主的文章才让我解决问题。

参考资料：

1、https://www.cnblogs.com/lyssym/p/11643256.html