Big Model Weekly 第14期

点击蓝字

f5967d2b8a6361f5d6d770e7e1446d48.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

这篇论文摘要讨论了键-值(KV)缓存作为加速大型语言模型(LLMs)推理生成速度的事实标准。然而,随着序列长度的增加,缓存需求不断增长,将LLM推理转变为内存受限问题,显著限制了系统吞吐量。现有方法依赖于丢弃不重要的标记或对所有条目进行均匀量化。然而,这种方法通常会产生高逼近误差,以表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差,导致模型生成的关键偏差和性能恶化。为了解决这一挑战,本文提出了GEAR,一种高效的KV缓存压缩框架,实现了接近无损的高比例压缩。GEAR首先对大多数大小相似的条目进行量化,将其量化为超低精度。然后,它使用低秩矩阵来近似量化误差,并使用稀疏矩阵来补偿异常条目的个别误差。通过巧妙地整合三种技术,GEAR能够充分利用它们的协同潜力。实验表明,与其他选择相比,GEAR实现了接近无损的4位KV缓存压缩,吞吐量提高了最多2.38倍,同时将峰值内存大小减少了最多2.29倍。

文章链接:

https://arxiv.org/pdf/2403.05527.pdf

9a5caf94a693b9ea17f1c03365d8a1c3.png

8f9b32afa2e5870d6cee843cf9b92fef.png

7e995b3dc534e91082b2b2717cd8b87d.png

482f9a8b8c968386ee573ebc2bc1c23e.png

3992348a004ac82d9220580cdcdc2036.png

4c6618a873735ed30bc17ca1ed5f014c.png

2. Algorithmic progress in language models

本文调查了自深度学习问世以来,用于预训练语言模型的算法改进速率。利用跨越2012年至2023年的Wiketext和Penn Treebank上的200多个语言模型评估数据集,我们发现达到一定性能阈值所需的计算量大约每8个月减半一次,95%的置信区间大约为5至14个月,远远快于摩尔定律下的硬件进步速度。文中估计了增强缩放定律,从而能够量化算法进展,并确定模型缩放与训练算法创新之间的相对贡献。尽管算法进展迅速,并出现了新的架构,如Transformer,但分析表明,在此期间,计算量的增加对整体性能改进的贡献更大。尽管受到嘈杂的基准数据的限制,但本研究的分析量化了语言建模的快速进展,阐明了计算量和算法对进展的相对贡献。

文章链接:

https://arxiv.org/pdf/2403.05812.pdf

66e8dde81e5eeeeb96c29d3deb231ee5.png

04b08145a77be3ccce8ca1dfec106f1a.png

ca4864d1b331414527bf7a62e0842355.png

fcd7c487396e3e0227ab0206df969909.png

3. AutoEval Done Right: Using Synthetic Data for Model Evaluation

使用人工标记的验证数据评估机器学习模型可能既昂贵又耗时。可以使用AI标记的合成数据来减少此目的所需的人工注释数量,这个过程称为自动评估。本文提出了有效且统计原则的算法,以改善样本效率同时保持无偏性。这些算法在与gpt-4的实验中将有效的人工标记样本大小增加了高达50%。

文章链接:

https://arxiv.org/pdf/2403.07008.pdf

e58256a0ea08c02b1c9dda493fe89f42.png

fdd7145628268bd2dd836fc0b5e9c046.png

c682011d88e36fa82faf277c4f4ccedc.png

4. RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

本文探讨了如何通过信息检索来迭代修订一系列思考,显著提高大型语言模型在长期生成任务中的推理和生成能力,同时极大地减轻了虚构现象。具体来说,所提出的方法——检索增强思考(RAT)——在生成初始零样本CoT之后,逐步使用与任务查询、当前和过去思考步骤相关的检索信息修订每个思考步骤。将RAT应用于GPT-3.5、GPT-4和CodeLLaMA-7b,在各种长期生成任务中显著提高了它们的性能;相对提高了代码生成的评分约13.63%,数学推理16.96%,创意写作19.2%,以及实体任务规划42.78%的平均评分。

文章链接:

https://arxiv.org/pdf/2403.05313.pdf

116b70ed03784b9fdbd7a54f9181cebd.png

de6c0e95bfc7cff9bf579bba8fa28711.png

6a90e5c16b5650c097e35739f1ffdb7d.png

d22500d903b75b59b21509cdbd93835d.png

5. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

在写作和交谈时,人们有时会停顿思考。尽管以推理为重点的作品通常将推理框架化为回答问题或完成主动任务的方法,但推理几乎都隐含在所有书面文本中。例如,这适用于证明中未在行间明确说明的步骤,或者适用于支持对话的心理理论。在自我教导推理器(STaR,Zelikman等,2022)中,通过从少量示例中推断出理由,并学习那些导致正确答案的理由,可以学习到有用的思维。这是一种高度受限制的设置——理想情况下,语言模型可以学习推断任意文本中未明确说明的理由。本文提出了Quiet-STaR,这是STaR的一个泛化版本,在其中,语言模型学习在每个标记处生成理由,以解释未来的文本,从而改善其预测。我们解决了一些关键挑战,包括:1)生成延续的计算成本,2)LM 最初不知道如何生成或使用内部思维,以及3)需要预测超出单个下一个标记。为了解决这些问题,作者提出了一种标记化并行采样算法,使用可学习的标记指示思维的开始和结束,并采用了扩展的教师强制技术。令人鼓舞的是,生成的理由不成比例地帮助模型预测困难的标记,并提高了LM直接回答困难问题的能力。特别是,在持续对LM在Internet文本语料库上使用Quiet-STaR进行预训练后,我们发现GSM8K(5.9%→10.9%)和CommonsenseQA(36.3%→47.2%)的零射击改进,并观察到自然文本中困难标记的困惑度改善。至关重要的是,这些改进不需要对这些任务进行微调。Quiet-STaR标志着LM可以以更一般和可扩展的方式学习推理的一步。

文章链接:

https://arxiv.org/pdf/2403.09629.pdf

8468e1e22f1774f00a8e4d65b41a1ee5.png

e41d86c655d11269a474b3d5b0359de2.png

c37212efa6b16b4742401a0eeddb15b9.png

b802db45bef6c30d9935773329151b73.png

dde4a87ab4532d5c41598ead4f467396.png

6. Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training

本文探讨了神经网络在结构化的非独立同分布(non-IID)环境中的训练动态,其中文档以固定重复的顺序循环呈现。通常情况下,当在文档序列上训练网络时,网络会遭受灾难性干扰;然而,在这种设置中顺序微调的LLMs展现出一种奇特而显著的特性:它们表现出预期行为,在再次遇到文档之前从先前遗忘的情况中恢复过来。随着体系结构参数数量的增加,这种行为会逐渐显现并变得更加鲁棒。通过全面的实验和可视化,该研究揭示了在结构化环境中训练过参数化网络的新见解。

文章链接:

https://arxiv.org/pdf/2403.09613.pdf

765e57d7570738532ff443791c36954e.png

80de3c142ba18ad14fcc4cadc0687b19.png

9e3da201cb6acace5a21b32eca6d6475.png

39eeff8d38a523541bafe11cf46a2294.png

c58da238a66fa00c6df510e39858856b.png

往期精彩文章推荐

e194c81eecb01b4c061a78823ed22842.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

b5e681a32d29fee498d4e169fffded95.png

我知道你

在看

~

124757c3e32ceb96a641109bd4e04d9d.gif

点击 阅读原文 往期大模型论文!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值