警告
请注意,vLLM 中的推测性解码尚未优化,并且通常不会对所有提示数据集或采样参数带来令牌间延迟的减少。优化工作正在进行中,相关进展可以通过此链接跟踪:问题 #4630。
警告
目前,vLLM 中的推测性解码与管道并行性不兼容。
本文档展示了如何在 vLLM 中使用推测性解码。推测性解码是一种提高内存受限的 LLM 推理中令牌间延迟的技术。
一、使用草拟模型进行推测
以下代码配置 vLLM 以离线模式使用推测性解码,并使用草拟模型每次推测 5 个token。
from vllm import LLM, SamplingParams
prompts = [
"The future of AI is"