AI速读 From Hours to Minutes TOKENSWIFT如何实现超长序列生成无损加速？

亚里随笔

于 2025-04-20 12:39:16 发布

阅读量1.1k

点赞数 25

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/PAN_Andy/article/details/147364054

版权

论文阅读专栏收录该内容

49 篇文章

订阅专栏

在大语言模型（LLMs）蓬勃发展的当下，超长序列生成的效率问题却成为了拦路虎。本文将为你解读一篇重磅论文，其中提出的TOKENSWIFT框架，成功将超长序列生成时间从数小时压缩至90分钟，还保证了生成质量，堪称大语言模型领域的一大突破，快来一探究竟！

论文标题
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
来源
arXiv:2502.18890v1 [cs.CL] + http://arxiv.org/abs/2502.18890

文章核心

研究背景

大语言模型在长文本处理、复杂推理等方面展现出强大能力，但生成超长序列时耗时过长，严重限制了其在实际场景中的应用。

研究问题

频繁模型重载：在大语言模型的自回归（AR）生成模式下，每生成一个令牌（token）都要从GPU存储单元加载整个模型到计算单元，内存访问时间长，成为生成速度的主要瓶颈。
KV缓存持续增长：随着序列长度增加，关键值（KV）缓存动态管理难度增大，现有方法无法有效应对超长输出场景下的缓存问题。
重复内容生成：序列长度增加时，模型生成的文本容易出现重复，影响输出质量。

主要贡献

提出全新框架：首次提出TOKENSWIFT框架，实现了大语言模型超长序列（最长达100K令牌）生成的无损加速，在准确性上与目标模型一致，且优于增强基线模型。
显著提升速度：相比自回归生成方式，TOKENSWIFT在不同前缀长度、模型架构和规模下生成100K令牌时，速度提升超过3倍，如在LLaMA3.1-8b模型上，将生成时间从近5小时缩短至90分钟。
增强生成多样性：随着生成长度增加，TOKENSWIFT的加速效果更明显，同时能提高生成内容的多样性（通过Distinct-n指标衡量），减少重复内容。

方法论精要

核心算法/框架：TOKENSWIFT框架通过自起草（self-drafting）生成草稿令牌序列，再用基于树的注意力机制将其传递给目标（完整）模型进行验证，确保最终生成输出与目标模型预测一致，实现无损加速。
关键参数设计原理：引入额外线性层实现多令牌生成，同时设计了特殊结构，使这些线性层相互关联，既符合模型的AR性质，又不增加计算成本。在动态KV缓存管理中，设置固定预算大小|B|，保留初始|S|个KV对，按重要性替换后续KV对，并通过计算查询（Q）和键（K）的点积来确定KV对的重要性分数。对于缓解重复生成问题，引入固定惩罚窗口W和惩罚值θ，对近期生成的W个令牌进行惩罚，调整采样概率。
创新性技术组合：综合运用多令牌生成和令牌重用技术，减少模型重载频率；采用动态KV缓存更新策略，降低KV缓存加载时间；通过上下文惩罚和随机n -gram选择，缓解重复输出问题，保证输出多样性。
实验验证方式：在多种模型（如YaRN-LLaMA2-7b-128k、LLaMA3.1-8b、Qwen2.5-(1.5b,7b,14b)）上进行实验，使用PG-19测试集。对比基线选择TriForce*（改进版，融入动态KV更新）和Medusa*（采用Medusa训练方法并结合TOKENSWIFT验证方法），通过评估整体接受率、加速比和Distinct-n等指标，验证TOKENSWIFT的性能。

实验洞察

性能优势：在不同模型和生成长度下，TOKENSWIFT的加速比均显著优于基线模型。如在LLaMA3.1-8b模型上生成100K令牌时，TOKENSWIFT的加速比可达3.25（前缀长度2048），接受率为0.90；而TriForce*的加速比仅为1.25，接受率为0.35。在Qwen2.5系列模型上也有类似表现，如Qwen2.5-14b生成100K令牌时，TOKENSWIFT的加速比为3.34，节省时间332.4分钟。
效率突破：相比自回归生成，TOKENSWIFT大幅提升了推理速度。随着生成长度增加，加速效果愈发明显，在大模型上优势更突出。例如在生成100K令牌时，TOKENSWIFT为14B模型节省高达5.54小时的时间。
消融研究：通过对TOKENSWIFT的关键模块进行消融实验，验证了各模块的有效性。如去除令牌重用（k=0）会导致接受率和加速比显著下降；动态部分缓存（Dynamic Partial Cache）策略在管理KV缓存时，能实现高接受率和显著加速，优于全缓存（Full Cache）和部分缓存（Partial Cache）策略；上下文惩罚能有效提高生成序列的多样性，在不同采样方法下都有明显效果，如在min-p采样中，Distinct-4得分从0.15提升到0.82。

本文由AI辅助完成。