EAGLE-2：一种高效无损的推测性采样方法，提升LLM的推理速度。-CSDN博客

欢迎关注我的公众号：Halo咯咯

01。概述

北京大学的研究人员联合微软研究院、滑铁卢大学以及Vector研究所共同推出了EAGLE-2，这是一种利用上下文感知的动态草图树来增强推测性采样的方法。EAGLE-2在先前的EAGLE方法基础上进行了改进，不仅显著提升了速度，同时保持了生成文本的质量。该方法根据上下文动态调整草图树，并利用草图模型的置信度分数来近似接受率。

EAGLE-2通过上下文动态调整草图树，优化了推测性采样过程。该方法包含两个主要阶段：扩展和重新排名。首先，在扩展阶段，草图模型从草图树的最新层输入最有希望的节点，以形成下一层。草图模型的置信度分数近似于接受率，从而可以高效地预测和验证代币。随后，在重新排名阶段，验证过程中为原始语言模型（LLM）的输入选择具有较高接受概率的代币。这种两阶段的方法确保草图树能够适应上下文，显著提高了代币的接受率和整体效率。该方法消除了多次前向传递的需求，从而加快了推理过程，同时不影响生成文本的质量。

02。EAGLE特点

EAGLE技术以其卓越的性能获得第三方评估机构的认证，成为迄今为止最快的推测性方法。
在gpt-fast上实现2倍速度提升，在标准解码（13B参数模型）上快3倍，比Lookahead（13B参数模型）快2倍，比Medusa（13B参数模型）快1.6倍。
EAGLE技术在生成文本的分布上能够保证与传统解码方法的一致性。此外，它可在1至2天内完成训练，并在8个RTX 3090 GPU上进行测试，使得即使是GPU资源有限的研究人员也能够承担得起。
EAGLE技术还可以与其他并行技术如vLLM、DeepSpeed、Mamba、FlashAttention、量化技术以及硬件优化等相结合使用。

03。EAGLE2性能

在多轮对话场景中，EAGLE-2实现了大约4.26倍的加速；在代码生成任务中，其速度提升高达5倍。在草拟-验证周期内生成的平均代币数量显著高于其他方法，大约是标准推测性采样的两倍。这种性能提升使EAGLE-2成为实时自然语言处理应用的宝贵工具。

性能评估还表明，EAGLE-2在不同任务和大型语言模型（LLM）上实现了3.05倍至4.26倍的加速比率，比之前的EAGLE方法提升了20%至40%。它保持了生成文本的分布，确保了在提高速度的同时不损失输出质量。EAGLE-2在涵盖六项任务和三个系列的大型语言模型的广泛测试中展现了最佳性能，证实了其鲁棒性和高效率。