Big Model weekly

AITIME论道

于 2023-12-16 18:07:50 发布

阅读量598

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247520851&idx=1&sn=c0d98cc3b71049e9289b7c7f702c1910&chksm=e838e097e77a9b3079cf891948938d98018999962023ea3509cb9d7ee20b85c509e06988c841&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

1. SparQ Attention: BandWidth-Efficient LLM Inference

生成式大语言模型（LLM）已经开启了许多新颖可能性，但由于它们具有很高的计算要求，它们的广泛使用仍然具有挑战性。其中一些应用需要一次处理大量样本并使用长上下文，这两者都显著增加了模型的内存通信负载。本文引入了SparQ Attention，这是一种通过选择性获取缓存历史来减少注意力块内存带宽需求，从而提高LLM推断吞吐量的技术。本文提出的技术可以直接应用于推断过程中的现成LLM，而无需修改预训练设置或进行额外的微调。通过在各种下游任务上评估Llama 2和Pythia模型，作者展示了SparQ Attention如何在不损失准确性的情况下减少注意力内存带宽需求多达八倍。

文章链接：

https://arxiv.org/pdf/2312.04985.pdf

2. Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback

一个值得信赖的真实世界预测系统应该产生校准良好的置信度分数；也就是说，它对答案的置信度应该表明答案是正确的可能性。最近的研究表明，无监督预训练产生了大型语言模型(LM)，其条件概率得到了很好的校准。然而，最广泛使用的LM，使用来自人类反馈(RLHF-LM)的强化学习进行了微调，一些研究表明RLHFLM产生校准非常差的条件概率。鉴于这种感知的弱点，这篇文章对从RLHF-LM中提取置信度分数的方法进行了广泛的评估。对于ChatGPT、GPT-4和Claude等RLHF-LM，作者发现作为输出标记发出的口头置信度通常比模型在TriviaQA、SciQ 和TruthfulQA基准上的条件概率更好地校准，通常将预期的校准误差减少50%。

文章链接：

https://arxiv.org/pdf/2305.14975.pdf

3. PathFinder: Guided Search over Multi-Step Reasoning Paths

随着大型语言模型的最新进展，诸如引发推理链的想法链提示等方法已被证明可以提高推理任务的结果。然而，需要多个推理步骤的任务仍然对最先进的模型提出了重大挑战。从波束搜索算法中汲取灵感，该篇工作提出了PATHFINDER，这是一种基于树搜索的推理路径生成方法。它通过集成动态解码来增强不同的分支和多跳推理，这可以通过不同的采样方法和参数来实现。使用约束推理，PATHFINDER集成了新颖的质量约束、修剪和探索方法来提高生成效率和质量。此外，它包括评分和排名特征以改进候选选择。本文方法在三个复杂的算术和常识推理任务上平均优于竞争基线6%。该模型可以很好地推广到更长、看不见的推理链，这反映了与具有大分支因子的波束搜索类似的复杂性。

文章链接：

https://arxiv.org/pdf/2312.05180.pdf

4. Zero-shot Goal-Directed Dialogue via RL on Imagined Conversations

大型语言模型(LLM)已成为许多自然语言任务的强大而通用的解决方案。然而，语言生成的许多最重要的应用都是交互式的，其中代理必须与一个人交谈以达到预期的结果。例如，教师可能会尝试了解学生当前的理解水平并相应地调整他们的指令，旅行代理可能会询问客户的问题以了解他们的偏好，以便推荐他们可能喜欢的活动。使用标准RLHF训练的监督微调或“单步”RL的LLM可能会遇到需要这种目标导向行为的任务，因为它们没有经过训练来优化多轮交互后的整体对话结果。这项工作中探索了一种新方法，用于将LLM与RL适应此类目标导向对话。关键见解是，尽管LLM可能无法有效地解决开箱即用的目标导向对话任务，但它们可以通过模拟次优但类似人类的行为来为解决此类任务提供有用的数据。鉴于目标导向对话任务的文本描述，作者利用LLM对假设的域内人与人交互的多样化合成推出进行采样。然后，算法利用该数据集和离线强化学习来训练交互式对话代理，该代理可以多轮优化目标导向目标。实际上，LLM 会产生可能交互的示例，然后 RL 处理这些示例以学习执行更优化的交互。实验表明所提出的方法在包括教学和偏好启发在内的各种目标导向对话任务中实现了最先进的性能。

文章链接：

https://arxiv.org/pdf/2311.05584.pdf

5. Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia

基于代理的建模已经存在了几十年，并广泛应用于社会科学和自然科学。这项研究方法的范围现在有望随着它吸收大型语言模型(LLM)提供的新可供性而急剧增长。基于生成代理的模型(GABM)不仅仅是经典的基于代理的模型(ABM)，其中代理相互交谈。相反，GABM是使用LLM构建的，将常识应用于情况，行为“合理”，回忆常见的语义知识，产生API调用来控制应用程序等数字技术，并在模拟和研究人员从外部查看它。本文提出了一个库Concordia，以促进使用GABM的构建和工作。Concordia可以轻松构建语言介导的物理或数字基础环境的模拟。Concordia代理使用灵活的组件系统产生他们的行为，该系统在两个基本操作之间介导：LLM调用和联想记忆检索。称为游戏主(GM)的特殊代理，它受到桌面角色扮演游戏的启发，负责模拟代理交互的环境。代理通过描述他们想要用自然语言做什么来采取行动。然后GM将他们的动作翻译成适当的实现。在模拟的物理世界中，GM检查代理动作的物理合理性并描述了它们的影响。在模拟应用程序和服务等技术的数字环境中，GM可以处理API调用，以与通用AI助手（例如，Bard、ChatGPT）和数字应用程序（例如，Calendar、电子邮件、搜索等）等外部工具集成。Concordia旨在支持科学研究的广泛应用，并通过模拟用户和/或生成合成数据来评估真实数字服务的性能。

文章链接：

https://arxiv.org/pdf/2312.03664.pdf