EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens

在这里插入图片描述

文章主要内容总结

  1. 研究背景:基于大型语言模型(LLM)的生成式推荐(LLMRec)虽性能优异,但因KV缓存的巨大计算开销和内存压力,推理延迟高,限制了实际应用(如需要毫秒级响应的工业场景)。
  2. 现有方法局限
    • 缓存压缩:通过移除次要KV对减少缓存,但推荐任务解码步骤少(生成1-5个token),加速效果有限。
    • 提示压缩:通过缩短输入序列减少初始KV缓存,但难以区分推荐任务中用户交互的重要性,易丢失关键信息导致准确性下降。
  3. 核心发现:通过分析LLMRec的注意力分数分布,发现两个关键特征:
    • 层间注意力稀疏度反转:早期层注意力分布密集(含丰富信息),后期层稀疏(冗余度高)。
    • 双重注意力 sink 现象:注意力分数集中在输入序列的头部和尾部token。
  4. 提出方法(EARN)
    • 引入前缀寄存器(prefix register)和后缀寄存器(suffix register),均为可学习的虚拟token,分别置于输入序列的首尾。
    • 早期层(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值