大模型框架:vLLM

目录

一、vLLM 介绍

二、安装 vLLM

2.1 使用 GPU 进行安装

2.2 使用CPU进行安装

2.3 相关配置

三、使用 vLLM

3.1 离线推理

3.2 适配OpenAI-API的API服务


一、vLLM 介绍

        vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。

二、安装 vLLM

2.1 使用 GPU 进行安装

        vLLM 是一个Python库,同时也包含预编译的C++和CUDA(12.1版本)二进制文件。

       1. 安装条件:

  • OS: Linux
  • Python: 3.8 – 3.11
  • GPU: compute capability 7.0 or higher (e.g., V100, T4, RTX20xx, A100, L4, H100, etc.)

        2.使用 pip 安装:

# 使用conda创建python虚拟环境(可选)
conda create -n vllm python=3.11 -y
conda activate vllm

# Install vLLM with CUDA 12.1.
pip install vllm

2.2 使用CPU进行安装

        vLLM 也支持在 x86 CPU 平台上进行基本的模型推理和服务,支持的数据类型包括 FP32 和 BF16。

        1.安装要求:

  • OS: Linux
  • Compiler: gcc/g++>=12.3.0 (recommended)
  • Instruction set architecture (ISA) require
### vLLM框架构成及其与GPU关系 #### vLLM框架概述 vLLM 是一种专为大型语言模型设计的推理框架,旨在提高效率和降低成本。该框架不仅支持多种优化技术,还特别针对 GPU 进行了高度适配,以充分利用硬件资源。 #### 框架核心组件 vLLM 主要由以下几个关键模块组成: 1. **模型加载器** - 负责将预训练好的 LLM 加载至内存中,并对其进行必要的初始化操作。 - 支持分片存储机制,允许模型参数分布在多个 GPU 上,减少单个设备的压力[^2]。 2. **调度管理器** - 实现任务分配逻辑,确保输入数据可以被合理地划分给各个计算单元。 - 利用流水线并行策略,在多张 GPU 卡间分割模型的不同阶段,每张卡负责特定数量的任务处理环节。 3. **执行引擎** - 执行具体的前向传播过程,完成对新输入序列的概率预测。 - 结合 Paged Attention 技术,有效降低了显存占用量的同时提高了吞吐量[^1]。 4. **通信协调者** - 处理跨节点间的同步题,保障分布式环境下的稳定运行。 - 对于配备 NVLink 或 InfiniBand 网络连接的数据中心尤为适用,可加速梯度交换和其他交互流程。 #### 应用层特性 - 提供简洁易用的应用接口(API),方便开发者快速集成到现有项目当中。 - 内置丰富的配置选项,可根据具体应用场景灵活调整各项参数设置。 - 支持动态批量化(batching)功能,自动聚合相似请求以进一步增强整体性能表现。 #### 与GPU的关系 为了最大化利用现代 GPU 的强大算力,vLLM 在架构层面做了诸多针对性的设计: - **资源匹配**:依据目标平台的具体情况(如可用 CUDA 核心数、显存量等),智能选择最合适的部署方案。 - **负载均衡**:借助内置算法监控各 GPU 工作状态,适时迁移热点任务,防止局部过热现象发生。 - **功耗控制**:配合 NVIDIA A800, H800 及更高级别的产品系列所提供的节能模式,实现在不影响服务质量的前提下节约能源消耗的目的[^3]。 ```python import torch from transformers import AutoModelForCausalLM def load_model_on_gpu(model_name="bigscience/bloom", device_ids=[0]): model = AutoModelForCausalLM.from_pretrained(model_name).to(f'cuda:{device_ids[0]}') return model model = load_model_on_gpu() print("Model loaded on GPU successfully.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

m0_37559973

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值