这篇论文的标题是《MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads》,作者包括Tianle Cai、Yuhong Li、Zhengyang Geng、Hongwu Peng、Jason D. Lee、Deming Chen、Tri Dao,他们分别来自普林斯顿大学、Together AI、伊利诺伊大学香槟分校、卡内基梅隆大学和康涅狄格大学。
摘要: 这篇论文介绍了一种名为MEDUSA的方法,用于加速大型语言模型(LLMs)的推理过程。传统的LLMs在自回归解码过程中缺乏并行性,导致操作受到加速器内存带宽的限制。MEDUSA通过在LLMs中添加额外的解码头来并行预测多个后续令牌,从而提高了推理效率。具体来说,MEDUSA使用基于树的注意力机制来构建多个候选续篇,并在每个解码步骤中同时验证它们。这种方法通过并行处理显著减少了所需的解码步骤数量,同时只引入了最小的单步延迟开销。
主要贡献:
- 提出了MEDUSA,一个简单的框架,通过在LLMs上添加额外的解码头来加速推理。
- 提出了两种微调策略(MEDUSA-1和MEDUSA-2),以满足不同用例的需求。
- 提出了几种扩展,包括自我蒸馏和典型接受方案,以提高MEDUSA的实用性。
方法:
- MEDUSA-1:在冻结的主干LLM上直接微调MEDUSA,实现无损推理加速。
- MEDUSA-2:与主干LLM一起微调MEDUSA,提高MEDUSA头的预测精度和加速比,但需要特殊的训练方法来保持主干模型的能力。
实验: 作者在不同大小和训练设置的模型上评估了MEDUSA,包括Vicuna-7B、13B、Vicuna-33B和Zephyr-7B。实验结果表明,MEDUSA-1可以实现超过2.2倍的加速,而MEDUSA-2可以将加速比进一步提高到2.3-3.6倍。
代码实现: 论文中提到了MEDUSA的代码实现地址,可以在GitHub上找到: MEDUSA GitHub Repository
这篇论文提供了一种有效的方法来加速大型语言模型的推理过程,并且提供了实际的代码实现,方便研究者和开发者进行进一步的研究和应用。