vLLM介绍

简介

vLLM 工程github地址
Paged attention论文地址

vLLM开发者介绍

Woosuk Kwon

vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs.
SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.

Zhuohan Li

vLLM: A high-throughput and memory-efficient serving engine for large language models, accelerated with PagedAttention.
Vicuna: An open-source chatbot impressing GPT-4 with 90% ChatGPT quality.
AlpaServe: Use model parallelism to accelerate deep learning serving, even when models fit a single GPU.
Alpa: Automate model parallel training with just a few lines of code.

Features

  • SOTA最先进的服务吞吐量
  • 高效的显存管理:PagedAttention高效管理kv memory,multi-query attention
  • 传入请求的Continuous batching
  • 优化的CUDA kernels。比如从Faster Transformer release 5.3中移植过来的attention kernel。实现了layernorm和position encoding kernels。
  • 支持多卡GPU推理,目前只支持Tensor parallel,不支持pipeline parallel
  • 最新开源模型支持,更新速度非常快:llama, llama2, 百川,通义千问,书生等等

主要解决的问题

由于LLMs以迭代方式生成其输出,LLM服务的性能受到内存的限制(内存和IO受限型memory-IO bound),计算资源不是瓶颈。就是说,当前将1MB的数据加载到GPU的计算核心所花费的时间比这些计算core对1MB数据执行LLM计算所花费的更多。这意味着LLM推理吞吐量在很大程度上取决于您可以将多大的batch放入高带宽GPU内存。参见(processor’s ops:byte ratio.)
在自回归解码过程中,LLM的所有输入tokens产生它们的attention key and value tensors,并且这些tensors被保存在GPU存储器中以生成下一个token。这些缓存的key and value tensors通常被称为KV缓存。由于碎片和过度预留,现有系统浪费了60%-80%的显卡内存。

vLLM的解决方案

减少显存的碎片和过度预留问题可以显著的提升推理性能。VLLM的主要解决思路是:

以下是 AnyScale 公司针对VLLM做的continuous-batching-llm-inference评测结论:
我们想要看看这种优化的性能如何。我们将详细讨论以下内容,包括我们如何模拟生产工作负载,但是总结我们的发现:

  • 使用continuous batching和Paged attention内存优化(使用vLLM),吞吐量可提高高达23倍。
  • 通过使用continuous batching(在Ray Serve和Hugging Face的text-generation-inference上),吞吐量比简单batch提高8倍。
  • 通过优化的模型实现(NVIDIA的Faster Transformer优化介绍),吞吐量比简单batch提高4倍。

vLLM Work Through

详细参考绑定的资源:vLLM First SF Meetup Slides。是2个作者写的比较详细

性能评测 TBD

### DeepSeek vLLM 介绍 DeepSeek vLLM 是一种优化后的大型语言模型部署框架,旨在提高推理效率并降低资源消耗。该框架支持多种量化技术,使得可以在较低配置硬件上高效运行复杂的语言处理任务[^1]。 ### 使用教程与文档获取 官方提供了详细的安装指南和技术文档来帮助开发者快速入门。这些资料通常位于项目主页或GitHub仓库内,建议访问对应页面查阅最新版说明文件以获得最准确的操作指导[^2]。 ### 下载与安装过程 为了下载指定版本的 DeepSeek 模型至本地环境,可以执行以下命令: ```bash modelscope download --model deepseek-ai/DeepSeek-V2-Lite-Chat --local_dir . ``` 这条指令会把 `deepseek-ai/DeepSeek-V2-Lite-Chat` 这个特定变种保存到当前工作路径下,方便后续加载使用。 ### 配置方法概述 完成上述步骤之后,在实际应用前还需要适当调整参数设置以适配具体应用场景需求。这可能涉及到修改配置文件中的超参选项或是通过API接口传递额外参数给服务端实例化对象时传入。 ### 示例代码展示 下面给出一段简单的 Python 脚本用于初始化已下载好的轻量级聊天机器人模型,并调用其预测功能来进行一次对话交互测试: ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch tokenizer = AutoTokenizer.from_pretrained('path_to_local_model_directory') model = AutoModelForCausalLM.from_pretrained('path_to_local_model_directory') input_text = "你好啊" inputs = tokenizer(input_text, return_tensors="pt") with torch.no_grad(): outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ``` 此脚本假设已经成功完成了前面提到的所有准备工作,并且替换了 `'path_to_local_model_directory'` 占位符为真实的存储位置字符串值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值