vLLM初识（一）

最新推荐文章于 2025-04-21 13:06:20 发布

荼荼灰

最新推荐文章于 2025-04-21 13:06:20 发布

阅读量951

点赞数 21

文章标签： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36553572/article/details/140898244

版权

vLLM初识（一）

在这里插入图片描述

前言

在LLM推理优化——KV Cache篇（百倍提速）中，我们已经介绍了KV Cache技术的原理，从中我们可以知道，KV Cache本质是空间换时间的技术，对于大型模型和长序列，它可能会占用大量内存。实际上LLM从诞生之初就在与内存作斗争，只是计算时间问题更加尖锐，掩盖了这一部分。随着研究的推进，内存问题也变得越来越突出。

vLLM提出了PagedAttention方法，尝试通过将 KV 缓存划分为可通过查找表访问的块来优化内存使用。因此，KV 缓存不需要存储在连续内存中，并且根据需要分配块。内存效率可以提高内存受限工作负载上的 GPU 利用率，因此可以支持更多推理批处理。我接下来就使用几篇博客来初步了解一下vLLM。

vLLM初探

vLLM 是一个快速且易于使用的库，用于 LLM 推理和服务。

vLLM速度很快，具有以下特点：

最先进的服务吞吐量
使用 PagedAttention 高效管理注意力键和值内存
连续批处理传入请求
使用 CUDA/

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。