vllm本地部署bge-m3模型API服务实战教程

在这里插入图片描述

一、说明

本文主要介绍vllm本地部署bge-m3模型API服务实战教程

本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的

二、配置环境

2.1 安装虚拟环境

我使用的是mininconda3,如果还不会使用虚拟环境,可以参考Miniconda管理python环境 - CSDN App

创建虚拟环境:

conda create -n bge python=3.12

2.2 安装vllm

安装之前,我们先进入刚才创建的虚拟环境:

conda activate bge

在下载vllm:

pip install vllm

2.3 对应版本的pytorch安装

查看CUDA版本:

nvcc --version

我的CUDA版本:

### 部署 BGE-M3 模型使用 vLLM 的指南 为了成功部署 BGE-M3 模型并利用 vLLM 进行高效推理,以下是详细的说明: #### 1. 安装依赖项 在开始之前,确保已安装必要的工具和服务。可以通过以下命令全局安装 `deploy-cli-service` 工具[^3]: ```bash npm install deploy-cli-service -g ``` 此外,还需要配置 Docker 环境来运行 MySQL、Seilisearch 和 Milvus 数据库服务[^2]。 --- #### 2. 下载和准备 BGE-M3 模型 访问 ModelScope 平台获取最新的 BGE-M3 模型文件[^1]。下载完成后将其解压到指定目录,例如 `/models/bge-m3/`。 --- #### 3. 初始化 vLLM 环境 vLLM 是一种高效的大型语言模型推理框架,支持多种模型加载方式。初始化环境前需确认 Python 版本不低于 3.8,并通过 pip 安装 vLLM 库: ```bash pip install vllm ``` --- #### 4. 加载 BGE-M3 模型vLLM 创建一个脚本来启动 vLLM 推理服务器并将 BGE-M3 模型加载其中。示例代码如下: ```python from vllm import LLM, SamplingParams # 设置采样参数 sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 加载 BGE-M3 模型 model_path = "/models/bge-m3/" llm = LLM(model=model_path) # 测试生成功能 output = llm.generate(["你好,世界"], sampling_params=sampling_params) print(output) ``` 上述代码会加载本地路径中的 BGE-M3 模型,并测试其基本生成能力。 --- #### 5. 启动 vLLM HTTP API 服务 如果希望将模型作为 RESTful API 提供外部调用,则可以启用 vLLM 内置的 HTTP 服务。执行以下命令即可完成设置: ```bash vllm-serving --model /models/bge-m3/ ``` 此操作会在默认端口 (通常是 8000) 上暴露接口,允许客户端发送请求并与模型交互。 --- #### 6. 整合其他组件 对于更复杂的场景,可能需要结合 Seilisearch 或 Milvus 来管理向量数据库以及结构化数据存储。这些工具可通过 Docker Compose 文件轻松集成到现有架构中。 --- ### 注意事项 - **硬件需求**: 考虑到 BGE-M3 属于大规模预训练模型,在实际部署过程中应确保有足够的 GPU 显存资源可用。 - **性能优化**: 可尝试调整批处理大小(batch size),序列长度(sequence length)等超参以进一步提升吞吐率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值