本文是LLM系列文章,针对《Recurrent Drafter for Fast Speculative Decoding in Large Language Models》的翻译。
大型语言模型中快速推测译码的递归抽取器
摘要
在本文中,我们介绍了一种改进的推测解码方法,旨在提高为大型语言模型服务的效率。我们的方法利用了两种现有技术的优势:经典的双模型推测解码方法和最近的单模型方法Medusa。我们的方法借鉴了Medusa的启发,采用了单一模型的策略进行推测解码。然而,我们的方法与众不同,它采用了一个具有递归依赖性设计的单个轻量级草稿头,本质上类似于经典推测解码中使用的小型草稿模型,但没有完整Transformer架构的复杂性。由于这种反复依赖性,我们可以使用波束搜索来快速过滤出不需要的候选者。结果是,该方法结合了单个模型设计的简单性,避免了在Medusa中只为推理创建数据依赖树注意力结构的需要。我们在几个流行的开源语言模型上实证证明了所提出的方法的有效性,并对采用这种方法所涉及的权衡进行了全面分析。
1 引言
2 推测译码的递归抽取器
3 实验
4 结论
在本文中,我们介绍了一种新的方法来提高大型语言模型的生成效率。我们的方法,递归抽取器,使用具有递归依