Flask+gunicorn实现web服务并发调用Python程序,解决多线程/多进程问题
项目场景:
项目需求:将客户端的请求经由Web服务器转发给Flask程序实例,调用Python程序。
问题描述:由于Flask框架默认是单进程,单线程阻塞的任务模式,为了实现并发,可以用 gunicorn
来部署Flask服务。这里用Flask+gunicorn实现python应用的部署,同理可以迁移到pytorch、tensorflow等机器学习、深度学习模型的部署。
环境准备:pip install gunicorn
解决方案:
1、采用Flask框架实现Web服务调用Python程序
Flask是一个使用 Python 编写的轻量级 Web 应用框架。
Flask的安装和使用可参考代码下方引用文,本文只举例一个简单应用。
main.py
# main.py
from flask import Flask
app = Flask(__name__)
@app.route('/predict/')
def index():
return 'this server is running on port:5000, url is predict'
# 在index函数可以实现任何操作,如机器学习/深度学习模型操作等
if __name__=='__main__':
app.debug = True
app.run(host="0.0.0.0", port=5000)
运行main.py,用postman发送请求http://0.0.0.0:6001/predict/,就会打印出:this server is running on port:5000, url is predict
如下图所示:
由于Flask框架默认是单进程,单线程阻塞的任务模式,为了实现并发,可以用 gunicorn
来部署Flask服务。
2、gunicorn实现并发
gunicorn支持三种参数设置,主要采用命令行和config文件两种方式。
(1)命令行:直接在命令行指定参数:
gunicorn -w 5 --threads 4 -b 0.0.0.0:8000 main:app --reload
输入指令后即可实现并发。其中,main指flask应用的python文件,app指flask应用。
gunicorn的参数详解如下:
-c CONFIG : CONFIG,配置文件的路径,通过配置文件启动;生产环境使用;
-b ADDRESS : ADDRESS,ip加端口,绑定运行的主机;
-w INT, --workers INT:用于处理工作进程的数量,为正整数,默认为1;
-k STRTING, --worker-class STRTING:要使用的工作模式,默认为sync异步,可以下载eventlet和gevent并指定
--threads INT:处理请求的工作线程数,使用指定数量的线程运行每个worker。为正整数,默认为1。
--worker-connections INT:最大客户端并发数量,默认情况下这个值为1000。
--backlog int:未决连接的最大数量,即等待服务的客户的数量。默认2048个,一般不修改;
-p FILE, --pid FILE:设置pid文件的文件名,如果不设置将不会创建pid文件
--access-logfile FILE : 要写入的访问日志目录
--access-logformat STRING:要写入的访问日志格式
--error-logfile FILE, --log-file FILE : 要写入错误日志的文件目录。
--log-level LEVEL : 错误日志输出等级。
--limit-request-line INT : HTTP请求头的行数的最大大小,此参数用于限制HTTP请求行的允许大小,默认情况下,这个值为4094。值是0~8190的数字。
--limit-request-fields INT : 限制HTTP请求中请求头字段的数量。此字段用于限制请求头字段的数量以防止DDOS攻击,默认情况下,这个值为100,这个值不能超过32768
--limit-request-field-size INT : 限制HTTP请求中请求头的大小,默认情况下这个值为8190字节。值是一个整数或者0,当该值为0时,表示将对请求头大小不做限制
-t INT, --timeout INT:超过这么多秒后工作将被杀掉,并重新启动。一般设定为30秒;
--daemon: 是否以守护进程启动,默认false;
--chdir: 在加载应用程序之前切换目录;
--graceful-timeout INT:默认情况下,这个值为30,在超时(从接收到重启信号开始)之后仍然活着的工作将被强行杀死;一般使用默认;
--keep-alive INT:在keep-alive连接上等待请求的秒数,默认情况下值为2。一般设定在1~5秒之间。
--reload:默认为False。此设置用于开发,每当应用程序发生更改时,都会导致工作重新启动。
--spew:打印服务器执行过的每一条语句,默认False。此选择为原子性的,即要么全部打印,要么全部不打印;
--check-config :显示现在的配置,默认值为False,即显示。
-e ENV, --env ENV: 设置环境变量;
(2)以配置文件的方式启动
配置文件 config.py
如下:
# coding:utf-8
# config.py
import os
import multiprocessing
bind = '127.0.0.1:8000' #绑定ip和端口号
backlog = 512 #监听队列
# chdir = '/home/test/server/bin' # gunicorn要切换到的目的工作目录
timeout = 30 #超时
worker_class = 'gevent' # 使用gevent模式,还可以使用sync 模式,默认的是sync模式
workers = multiprocessing.cpu_count() * 2 + 1 # 进程数
threads = 4 # 指定每个进程开启的线程数
daemon = True # 后台运行的方式
执行如下指令即可实现并发:
gunicorn -c confing.py main:app
其中main指flask应用的python文件,app指flask应用,注意这里采用的是config.py配置文件中的8000端口,而不是main.py中的5000,所以也可以采用python main.py启动flask应用。
参考引用:
补充一个关于Pytorch模型多并发web服务调用的坑~
Flask+gunicorn部署深度学习报错gunicorn: error: argument -b: invalid int value ‘0.0.0.0:8000‘