文章目录 1. 环境安装 1.1 基础环境 1.2 vllm-gptq库安装 2. vllm 原理 2.1 vllm介绍 2.2 vllm 框架的使用 3 vllm 部署实战 3.1 离线推理 3.2 chat 方法实现 3.2.1 初始化函数 3.2.2 chat方法实现 3.2.3 效果展示 4. 服务端部署 4.1 效果演示 4. 2 代码详解 4.2.1 客户端代码 4.2.2 服务端代码 4.3 前端可视化 4.3.1 代码使用 4.3.2 Gradio 界面构建 1. 环境安装 1.1 基础环境 conda create -n vllm python=3.10 -y conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda