Big Model Weekly | 第32期

点击蓝字

d15a1b1ed2d414ecc004d37826d90334.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope

最大支持的上下文长度是限制大型语言模型(LLM)实际应用的一个关键瓶颈。尽管现有的长度扩展方法可以将LLMs的上下文扩展到数百万令牌,但这些方法都有明确的上限。这项工作提出了LongCache,这是一种无需训练的方法,它通过全上下文缓存选择和无需训练的集成,使LLM能够支持无限上下文,但具有有限的上下文范围。这有效地使LLM摆脱了长度扩展问题。作者在LongBench和L-Eval上验证了LongCache,并展示了其性能与传统的全注意力机制相当。此外,本文已经将LongCache应用于主流LLMs,包括LLaMA3和Mistral-v0.3,使它们能够在“海中寻针”测试中支持至少400K的上下文长度。作者表示很快将通过GPU感知优化提高LongCache的效率。

682ceafa414f17e63602979fe6b1c40d.png

c69aa3847af5fa1ba72ef8d50fcdaf2d.png

bc8a93fdf2dc90866334e31e9eb3aa65.png

479708ebcf4a052bc8c05dbf4ddc76a6.png

文章链接:

https://arxiv.org/pdf/2407.15176

02

RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

键值(KV)缓存的内存和计算需求对于部署长上下文语言模型提出了重大挑战。以往的方法尝试通过选择性丢弃令牌来缓解这个问题,这会不可逆转地擦除未来查询可能需要的关键信息。本文提出了一种新颖的KV缓存压缩技术,该技术保留了所有令牌信息。调查揭示了:i) 大多数注意力头主要关注局部上下文;ii) 只有少数头,被称为检索头,基本上可以关注所有输入令牌。这些关键观察结果激励作者为注意力头使用单独的缓存策略。因此,本文提出了RazorAttention,这是一种无需训练的KV缓存压缩算法,它为这些关键的检索头维护完整缓存,并在非检索头中丢弃远程令牌。此外,本文引入了一种涉及“补偿令牌”的新颖机制,以进一步恢复被丢弃令牌中的信息。在多种大型语言模型(LLMs)上的广泛评估表明,RazorAttention在不显著影响性能的情况下,实现了KV缓存大小超过70%的减少。此外,RazorAttention与FlashAttention兼容,使其成为一种高效且即插即用的解决方案,无需额外开销或重新训练原始模型,就能提高LLM推理效率。

3dc13fdcd8a802ed54f404e8e4bbd902.png

f496642d4a0201648203933f8db6ecef.png

adb18d5ce3355c4eda1e6f29e8d8a69c.png

01ebe2de6d5ad07a3aed65ceacd3146a.png

9af69ba166619a69b3166ef4b1237b70.png

文章链接:

https://arxiv.org/pdf/2407.15891

03

TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data

指令调整在NLP领域取得了前所未有的成功,将大型语言模型转变为多功能聊天机器人。然而,指令数据集的日益增多和多样化对计算资源提出了巨大需求。为了解决这个问题,提取一个小型且信息量高的子集(即核心集)以实现与完整数据集相当的性能至关重要。实现这一目标面临着非平凡的挑战:1) 数据选择需要准确的数据表示,以反映训练样本的质量;2) 考虑到指令数据集的多样性;3) 确保核心集选择算法对于大型模型的效率。为了应对这些挑战,本文提出了任务不可知梯度聚类核心集选择(TAGCOS)。具体来说,本文利用样本梯度作为数据表示,执行聚类以分组相似数据,并应用高效的贪婪算法进行核心集选择。实验结果表明,该算法仅选择5%的数据,在其他无监督方法中脱颖而出,并实现了接近完整数据集的性能。

e2af195244698e2fb1f260b4bb837795.png

c86dd4219c70ac8ccb7ef87889be6382.png

4fb072a5a278e4dcbf0f6db22f05ae85.png

cee39f0a5e27bc9090bc0bd45e9af4b7.png

70fceeacf43c2d829aa1dba0e77830cb.png

文章链接:

https://arxiv.org/pdf/2407.15235

04

MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training

本文介绍了小型序列变换器(MST),这是一种简单而有效的方法,用于在极长序列上进行高度高效和准确的LLM训练。MST将输入序列分区,并迭代处理小序列以减少中间内存使用。结合激活重计算,它在前向和后向传递中都能实现显著的内存节省。在Llama3-8B模型的实验中,由于内存优化,即使使用比标准实现长12倍的序列,作者测量到吞吐量或收敛性没有下降。MST是完全通用的,与实现无关,并且只需要最小的代码更改即可与现有的LLM训练框架集成。

40533ce094c30d074b4a48bf140959c8.png

854e6bbc963395b81fc423241d13c6e6.png

239fa3e19cd5430e7cb10a3b82cd88b6.png

b14ccf771f5ecfd0ffa36352abe4fc15.png

4dd88c260143d3621384f068bf634ce7.png

8a5f22d074fbca7dc3df1e3d27eacf39.png

9b620228117e8fe8dffc17cb5ce40175.png

文章链接:

https://arxiv.org/pdf/2407.15892

05

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data

尽管大型语言模型(LLMs)在现实世界应用中已经证明了其效用,但人们对于它们如何利用大规模预训练文本语料库来实现这些能力仍然缺乏了解。这项工作通过对他们的预训练数据进行全面的n-gram分析,研究了大规模预训练LLMs中泛化和记忆之间的相互作用。文中的实验集中在三种通用任务类型:翻译、问答和多项选择推理。使用各种大小的开源LLMs及其预训练语料库,作者观察到随着模型大小的增加,与任务相关的n-gram对数据变得越来越重要,这导致了任务性能的提高、记忆的减少、泛化的增强和能力的出现。实验结果支持了这样的假设:LLMs的能力来自于足够的与任务相关的预训练数据中记忆和泛化之间微妙的平衡,并且为更大规模的分析指明了方向,这些分析可以进一步提高对这些模型的理解。

ca4244b3c78a62fd0fad72776100d4da.png

ee54ea4ceb21235d7c6d51a36c55d287.png

c2594abb13f3ce455c2d444d4ea3a302.png

ce137ce15019ec223def4c8dc29cf562.png

文章链接:

https://arxiv.org/pdf/2407.14985

06

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

本文介绍了ChatQA 2,这是一个基于Llama3的模型,旨在弥合开放获取的大型语言模型(LLMs)与领先的专有模型(例如GPT-4-Turbo)在长上下文理解和增强检索生成(RAG)能力方面的差距。这两种能力对于LLMs处理无法适应单个提示的大量信息至关重要,并且它们互补,取决于下游任务和计算预算。作者提出了一个详细的继续训练方法,将Llama3-70B-base的上下文窗口从8K扩展到128Ktokens,并结合了一个三阶段的指令调整过程,以增强模型的指令遵循、RAG性能和长上下文理解能力。结果表明,Llama3-ChatQA-2-70B模型在许多长上下文理解任务上的准确性与GPT-4-Turbo2024-0409相当,并在RAG基准测试中超越了它。有趣的是,作者发现长上下文检索器可以缓解RAG中的top-k上下文碎片化问题,进一步提高基于RAG的长上下文理解任务的结果。本文还提供了使用最先进长上下文LLMs的RAG和长上下文解决方案之间的广泛比较。

769ad98ae22684dbe3b0f89191bbb47b.png

663d0b5c7ab0063de171c7c4a90e1e3d.png

facd54315fc5705df99d76b28d317f3c.png

4ecb7f470b916135993aed4cac5b3bd9.png

文章链接:

https://arxiv.org/pdf/2407.14482

07

Improving Context-Aware Preference Modeling for Language Models

虽然从成对偏好中微调语言模型(LMs)已被证明非常有效,但自然语言的不明确性质带来了关键挑战。直接偏好反馈是不可知的,在可能适用多维标准的情况下难以提供,并且常常不一致,要么是因为基于不完整的指令,要么是由不同的主体提供。为了应对这些挑战,作者考虑了一个两步偏好建模过程,首先通过选择上下文来解决不明确性,然后根据所选上下文评估偏好。本文根据这两个步骤分解了奖励建模误差,这表明除了上下文特定的偏好之外,监督上下文也可能是使模型与多样化人类偏好对齐的可行方法。为此,模型评估上下文特定偏好的能力至关重要。为此,本文提供了条件上下文偏好数据集和相应的实验,这些实验调查了语言模型评估上下文特定偏好的能力。文章使用的数据集来(1)展示现有的偏好模型从增加的上下文中受益,但没有充分考虑,(2)微调一个上下文感知的奖励模型,其上下文特定性能在测试数据集上超过了GPT-4和Llama 3 70B,以及(3)调查上下文感知偏好建模的价值。

4382cdcdad5c5b8ccaad9a15faaf0e1d.png

e85db3908f01fface59ee0ac4c9fc476.png

78fd63d256ac54560ca5a5611b9c745c.png

820a9f03ad497b539b996b227f11dd4e.png

文章链接:

https://arxiv.org/pdf/2407.14916

本期文章由陈研整理

往期精彩文章推荐

d6553eef82d8c7a7e8136ce4566fd27b.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

d4069ee81bfe829256a7c067206d827a.png

我知道你

在看

欢迎讨论,期待你的

留言

881e8d24b74e680dd803f8d9795b7a5a.gif

点击 阅读原文 查看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值