[Arxiv 2024] EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

连理o

已于 2024-08-05 16:19:07 修改

阅读量607

点赞数 17

文章标签： Arxiv 2024

于 2024-08-05 15:09:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42437114/article/details/140881998

版权

模型部署专栏收录该内容

24 篇文章 1 订阅

订阅专栏

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Context-Aware Dynamic Draft Tree，对 EAGLE 中固定的 draft tree 做出了改进，通过动态扩展 draft tree 有效节省 draft model 的推理时间，还能通过 token re-rank 给 LLM 提供更少更高质量的 draft tokens，从而在保证接收率的前提下降低 LLM 的验证时间，相比 EAGLE 有了明显的加速

Method

Expansion Phase. 在扩展 draft tree 时，只选择最深层上累积接收概率最高的 top- $k$ tokens 进行扩展，从而降低 draft model 的推理开销，其中累积接收概率为根节点到当前节点的接收概率之积，接收概率可以用 token 置信度近似 $V_i=\prod_{t_j\in\text{Path}(\text{root},t_i)}p_j\approx\prod_{t_j\in\text{Path}(\text{root},t_i)}c_j$ (作者发现 draft model is well-calibrated)；例如下图中，只选择 current layer (orange blocks) 进行扩展
Reranking Phase. draft tree 扩展完成后，作者从 token tree 中选出累积接收概率的 top- $m$ tokens 交给 LLM 验证，如果两个 token 累计接收概率相同，则优先选择位于更浅层的 token；这样选出的 top- $m$ tokens 仍然可以形成一棵树，可以用 tree attention 进行验证

Experiments

Effectiveness.
Ablation Study. 这里的 w/o value 指扩展 draft tree 时不使用累积接收概率而是直接使用单个 token 的 confidence

References

关注

17
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
[Arxiv 2024] EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

[Arxiv 2024] EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。