vLLM
文章平均质量分 82
数据猴赛雷
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
vLLM推理引擎教程7-CUDA Graph
vLLM在decode阶段采用CUDAGraph技术提升性能。CUDAGraph通过录制和重放GPU操作减少CPU调度开销,适用于输入结构固定的推理任务。实践表明,使用10000层Linear模型的测试中,原始执行时间为236ms,经CUDAGraph优化后降至47ms,加速效果显著。原创 2025-12-17 17:26:02 · 1161 阅读 · 0 评论 -
vLLM推理引擎教程6-Nsight Systems性能分析
本文介绍了Nvidia Nsight Systems性能分析工具,用于优化推理引擎性能。该工具通过收集CPU/GPU执行细节,生成系统时间线视图,帮助开发者分析线程活动、GPU内核执行等事件的时序关系。文章详细说明了Linux服务器安装方法(通过rpm包)和验证步骤,并提供了Python版本的GPU性能测试代码示例,包含张量创建、GPU数据传输和矩阵乘法操作。原创 2025-12-16 18:50:56 · 365 阅读 · 0 评论 -
vLLM推理引擎教程5-PagedAttention技术
PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率,原创 2025-12-15 14:10:58 · 984 阅读 · 0 评论 -
vLLM推理引擎教程4-离线推理功能
本文介绍了使用vLLM框架优化推理性能的多种方法。主要内容包括:1)基础文本生成、对话式推理、文本分类和嵌入提取四种任务的基本实现;2)自动前缀缓存功能,通过共享KV缓存加速长上下文处理;3)使用YARN方法扩展模型上下文长度;4)多模态任务处理示例(Whisper语音识别);5)底层LLMEngine API的使用。文章通过具体代码示例展示了如何设置参数实现各类推理优化,包括温度调节、top-p采样、缓存复用等技巧,适用于文本生成、分类、嵌入等多种NLP任务场景。原创 2025-12-12 17:54:27 · 1306 阅读 · 0 评论 -
vLLM推理引擎教程3-分离式Prefill
摘要:本文探讨了LLM推理中的Prefill阶段及其优化方法。Prefill是LLM推理的第一阶段,通过并行处理完整prompt生成KVCache,为后续自回归生成做准备。文章提出分离式Prefill方案,将计算密集的Prefill和内存密集的Decode阶段拆分到不同硬件上执行,以提升系统吞吐量。实践部分通过vLLM框架演示了单机测试,使用共享存储方式实现KVCache传输,包括prefill_example.py生成KVCache和decode_example.py复用缓存继续生成。该方法有效减少了重复原创 2025-12-11 19:03:58 · 1126 阅读 · 0 评论 -
vLLM推理引擎教程2-Async LLM Streaming
本文介绍了使用vLLM的AsyncLLM(V1异步推理引擎)进行流式文本生成的实现方法。核心步骤包括:配置引擎参数、创建AsyncLLM实例、设置流式采样参数、调用engine.generate()进行异步迭代输出,以及最后清理资源。原创 2025-11-28 17:09:41 · 463 阅读 · 0 评论 -
vLLM推理引擎教程1-QuickStart
vLLM是一个由UC Berkeley开发的高性能大语言模型推理引擎,通过PagedAttention技术显著提升KV缓存利用率。本文介绍了安装以及QuickStart的内容。原创 2025-11-28 16:00:53 · 606 阅读 · 0 评论
分享