开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)

一、术语介绍

1.1. Gunicorn

        一个用于运行Python Web应用程序的HTTP服务器。它是一个基于UNIX的预叉(pre-fork)服务器,专为在高并发环境中运行Python Web应用程序而设计。

1.2. Flask

          一个轻量级的 Python Web 框架,用于构建Web应用程序。它被设计成简单易用且灵活的框架,提供了基本的功能和工具,同时保持了扩展性和可定制性。

1.3. Supervisor

          一个用于进程管理的软件工具,通常用于在 Unix 或类 Unix 系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启,以保持系统的稳定性和可靠性。

1.4. slb

         一种网络均衡服务

1.5. Postman

        一个流行的API开发工具和协作平台,用于测试、调试和文档化API。它提供了一个用户友好的界面,使开发者能够轻松地构建和发送HTTP请求,并查看和分析服务器的响应。


二、部署架构


三、构建环境

3.1. gunicorn安装

 

  • 70
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开源技术探险家

以微薄之力温暖这个世界

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值