[论文笔记] LazyLLM: DYNAMIC TOKEN PRUNING FOR EFFICIENT LONG CONTEXT LLM INFERENCE（Token剪枝）

最新推荐文章于 2024-09-27 15:56:17 发布

心心喵

最新推荐文章于 2024-09-27 15:56:17 发布

阅读量235

点赞数 4

分类专栏：论文笔记文章标签：论文阅读剪枝算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Trance95/article/details/141352414

版权

论文笔记专栏收录该内容

123 篇文章 5 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

动态渐进式剪枝

从完整上下文开始，LazyLLM 会逐渐对 token 进行剪枝，从而逐渐减少得到最终模型所使用的计算数量。请注意，LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集，即便它们中的一些可能在之前的步骤中被剪枝了。相比于静态剪枝（一次性对所有 token 进行剪枝），动态剪枝会在每个生成步骤对下一 token 预测进行优化，这有助于维持模型的性能表现。

相较之下，LazyLLM 「很懒」，会从推理的第一轮迭代（预填充步骤）开始，只计算对预测下一 token 重要的 token。

在第一轮迭代中，一大关键难题是确定各个 token 的重要性。受之前已有研究（其中表明 token 隐藏状态会在穿过 Transformer 层时发生演进）的启发，该团队的解决方案是在每个生成步骤使用逐层 token 剪枝。具体来说，他们是使用各层的注意力图来确定输入 token 对将要预测的 token 的重要性。

在计算了 token 的置信度分数之后，另一个难题是确定剪枝 token 的阈值。

具体来说，对于不同的层和不同的任务，该阈值可能会随注意力分数的变化而改变。该团队的解决思路是使用 top-k 百分位数选取策略。具体来说，如果一个 token 的置信度分数小于输入 token 中的第 k 个百分位数，便将其剪枝掉。

了解本专栏

超级会员免费看

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

心心喵 CSDN认证博客专家 CSDN认证企业博客

码龄7年

742: 原创

3030: 周排名

3106: 总排名

63万+: 访问

: 等级

9244: 积分

5789: 粉丝

694: 获赞

94: 评论

1081: 收藏

私信

关注

热门文章

分类专栏

论文笔记付费 123篇
机器学习付费 33篇
算法导论付费 170篇
nlp 付费 115篇
redis
paddle
预训练语言模型 2篇
机器视觉
OT 3篇
强化学习 1篇
java 7篇
linux 147篇
RS 8篇
c 5篇
c++ 13篇
python 28篇
tensorflow2.0 7篇
深度学习 14篇
笔记
pytorch 7篇
LRFR 1篇
论文 2篇
cv 13篇

最新评论

[论文笔记] LLaMA3.2
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] UNDERSTANDING AND IMPROVING LEXICAL CHOICE IN NON-AUTOREGRESSIVE TRANSLATION理解和改进非自回归翻译中的词汇选择
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[linux] ‘LlamaTokenizer‘ object has no attribute ‘sp_model‘
琳曦饵瑜: 降低版本也还是不行，唉T T
[论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] LLM大模型剪枝篇——4、Qwen2系列剪枝实现
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心心喵 喵喵(*^▽^*）

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。