一、前言
通过“开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(八)”学习,实现qwen1.5-7b-chat集成vllm实现推理加速,在本篇学习中,将详细讲解如何基于vllm构建与OpenAI-API兼容的API服务。
二、术语
2.1、vLLM
vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2、OpenAI-API Compatible API Service
遵循 OpenAI API 的接口规范,让开发者可以使用OpenAI API相同的方式和方法来调用这些服务,从而利用它们的语言模型功能。
三、前提条件
3.1. 基础环境及前置条件
- 操作系统:centos7
- Tesla V100-SXM2-32GB CUDA Version: 12.2
- 提前下载好qwen1.5-7b-chat模型
通过以下两个地址进行下载,优先推荐魔搭
hugg