Big Model Weekly 第14期

AITIME论道

于 2024-03-23 10:01:29 发布

阅读量795

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247522947&idx=1&sn=920c9c13870fa68ccaaabc67c8b37796&chksm=e83655181e27857a67d3f09650a84da22ca5abca615e75b56ea5552120a3a6587510c9311fb4&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

1. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

这篇论文摘要讨论了键-值（KV）缓存作为加速大型语言模型（LLMs）推理生成速度的事实标准。然而，随着序列长度的增加，缓存需求不断增长，将LLM推理转变为内存受限问题，显著限制了系统吞吐量。现有方法依赖于丢弃不重要的标记或对所有条目进行均匀量化。然而，这种方法通常会产生高逼近误差，以表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差，导致模型生成的关键偏差和性能恶化。为了解决这一挑战，本文提出了GEAR，一种高效的KV缓存压缩框架，实现了接近无损的高比例压缩。GEAR首先对大多数大小相似的条目进行量化，将其量化为超低精度。然后，它使用低秩矩阵来近似量化误差，并使用稀疏矩阵来补偿异常条目的个别误差。通过巧妙地整合三种技术，GEAR能够充分利用它们的协同潜力。实验表明，与其他选择相比，GEAR实现了接近无损的4位KV缓存压缩，吞吐量提高了最多2.38倍，同时将峰值内存大小减少了最多2.29倍。

文章链接：

https://arxiv.org/pdf/2403.05527.pdf

2. Algorithmic progress in language models

本文调查了自深度学习问世以来，用于预训练语言模型的算法改进速率。利用跨越2012年至2023年的Wiketext和Penn Treebank上的200多个语言模型评估数据集，我们发现达到一定性能阈值所需的计算量大约每8个月减半一次，95%的置信区间大约为5至14个月，远远快于摩尔定律下的硬件进步速度。文中估计了增强缩放定律，从而能够量化算法进展，并确定模型缩放与训练算法创新之间的相对贡献。尽管算法进展迅速，并出现了新的架构，如Transformer，但分析表明，在此期间，计算量的增加对整体性能改进的贡献更大。尽管受到嘈杂的基准数据的限制，但本研究的分析量化了语言建模的快速进展，阐明了计算量和算法对进展的相对贡献。

文章链接：

https://arxiv.org/pdf/2403.05812.pdf

3. AutoEval Done Right: Using Synthetic Data for Model Evaluation

使用人工标记的验证数据评估机器学习模型可能既昂贵又耗时。可以使用AI标记的合成数据来减少此目的所需的人工注释数量，这个过程称为自动评估。本文提出了有效且统计原则的算法，以改善样本效率同时保持无偏性。这些算法在与gpt-4的实验中将有效的人工标记样本大小增加了高达50%。

文章链接：

https://arxiv.org/pdf/2403.07008.pdf

4. RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

本文探讨了如何通过信息检索来迭代修订一系列思考，显著提高大型语言模型在长期生成任务中的推理和生成能力，同时极大地减轻了虚构现象。具体来说，所提出的方法——检索增强思考（RAT）——在生成初始零样本CoT之后，逐步使用与任务查询、当前和过去思考步骤相关的检索信息修订每个思考步骤。将RAT应用于GPT-3.5、GPT-4和CodeLLaMA-7b，在各种长期生成任务中显著提高了它们的性能；相对提高了代码生成的评分约13.63％，数学推理16.96％，创意写作19.2％，以及实体任务规划42.78％的平均评分。

文章链接：

https://arxiv.org/pdf/2403.05313.pdf

5. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

在写作和交谈时，人们有时会停顿思考。尽管以推理为重点的作品通常将推理框架化为回答问题或完成主动任务的方法，但推理几乎都隐含在所有书面文本中。例如，这适用于证明中未在行间明确说明的步骤，或者适用于支持对话的心理理论。在自我教导推理器（STaR，Zelikman等，2022）中，通过从少量示例中推断出理由，并学习那些导致正确答案的理由，可以学习到有用的思维。这是一种高度受限制的设置——理想情况下，语言模型可以学习推断任意文本中未明确说明的理由。本文提出了Quiet-STaR，这是STaR的一个泛化版本，在其中，语言模型学习在每个标记处生成理由，以解释未来的文本，从而改善其预测。我们解决了一些关键挑战，包括：1）生成延续的计算成本，2）LM 最初不知道如何生成或使用内部思维，以及3）需要预测超出单个下一个标记。为了解决这些问题，作者提出了一种标记化并行采样算法，使用可学习的标记指示思维的开始和结束，并采用了扩展的教师强制技术。令人鼓舞的是，生成的理由不成比例地帮助模型预测困难的标记，并提高了LM直接回答困难问题的能力。特别是，在持续对LM在Internet文本语料库上使用Quiet-STaR进行预训练后，我们发现GSM8K（5.9%→10.9%）和CommonsenseQA（36.3%→47.2%）的零射击改进，并观察到自然文本中困难标记的困惑度改善。至关重要的是，这些改进不需要对这些任务进行微调。Quiet-STaR标志着LM可以以更一般和可扩展的方式学习推理的一步。

文章链接：

https://arxiv.org/pdf/2403.09629.pdf

6. Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training

本文探讨了神经网络在结构化的非独立同分布（non-IID）环境中的训练动态，其中文档以固定重复的顺序循环呈现。通常情况下，当在文档序列上训练网络时，网络会遭受灾难性干扰；然而，在这种设置中顺序微调的LLMs展现出一种奇特而显著的特性：它们表现出预期行为，在再次遇到文档之前从先前遗忘的情况中恢复过来。随着体系结构参数数量的增加，这种行为会逐渐显现并变得更加鲁棒。通过全面的实验和可视化，该研究揭示了在结构化环境中训练过参数化网络的新见解。

文章链接：

https://arxiv.org/pdf/2403.09613.pdf

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1700多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

哦

点击 阅读原文 往期大模型论文！

AITIME论道

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Big Model Weekly 第14期

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！1. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM这篇论文摘要讨论了键-值（KV）缓存作为加速大型语言模型（LLMs）推理生成速度的事实标准。然而，随着序列长度的增加，缓存需求不断增长，将LLM推理转变...
复制链接

扫一扫