Big Model weekly

点击蓝字

14421a7c8dde11a5814964d1071c66ae.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1. SparQ Attention: BandWidth-Efficient LLM Inference

生成式大语言模型(LLM)已经开启了许多新颖可能性,但由于它们具有很高的计算要求,它们的广泛使用仍然具有挑战性。其中一些应用需要一次处理大量样本并使用长上下文,这两者都显著增加了模型的内存通信负载。本文引入了SparQ Attention,这是一种通过选择性获取缓存历史来减少注意力块内存带宽需求,从而提高LLM推断吞吐量的技术。本文提出的技术可以直接应用于推断过程中的现成LLM,而无需修改预训练设置或进行额外的微调。通过在各种下游任务上评估Llama 2和Pythia模型,作者展示了SparQ Attention如何在不损失准确性的情况下减少注意力内存带宽需求多达八倍。

文章链接:

https://arxiv.org/pdf/2312.04985.pdf

2327f7e41d533fda418347bc6aa00db4.png

30bff84eb8a52b32cd235a9828b6be0f.png

a5ae10f0ccb775516ad16c00f24d55d2.png

02b64cf9708f8b95eba05b1f11eaa9a6.png

2. Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback

一个值得信赖的真实世界预测系统应该产生校准良好的置信度分数;也就是说,它对答案的置信度应该表明答案是正确的可能性。最近的研究表明,无监督预训练产生了大型语言模型(LM),其条件概率得到了很好的校准。然而,最广泛使用的LM,使用来自人类反馈(RLHF-LM)的强化学习进行了微调,一些研究表明RLHFLM产生校准非常差的条件概率。鉴于这种感知的弱点,这篇文章对从RLHF-LM中提取置信度分数的方法进行了广泛的评估。对于ChatGPT、GPT-4和Claude等RLHF-LM,作者发现作为输出标记发出的口头置信度通常比模型在TriviaQA、SciQ 和TruthfulQA基准上的条件概率更好地校准,通常将预期的校准误差减少50%。

文章链接:

https://arxiv.org/pdf/2305.14975.pdf

ae0df0c33e3af2acdbcdcf2798c46bae.png

132d5c230ce9d10a8713228e8443d683.png

73dc8f0af72040e3f868daea86324370.png

9c15ac832019e787a6607d8a49137fdf.png

3. PathFinder: Guided Search over Multi-Step Reasoning Paths

随着大型语言模型的最新进展,诸如引发推理链的想法链提示等方法已被证明可以提高推理任务的结果。然而,需要多个推理步骤的任务仍然对最先进的模型提出了重大挑战。从波束搜索算法中汲取灵感,该篇工作提出了PATHFINDER,这是一种基于树搜索的推理路径生成方法。它通过集成动态解码来增强不同的分支和多跳推理,这可以通过不同的采样方法和参数来实现。使用约束推理,PATHFINDER集成了新颖的质量约束、修剪和探索方法来提高生成效率和质量。此外,它包括评分和排名特征以改进候选选择。本文方法在三个复杂的算术和常识推理任务上平均优于竞争基线6%。该模型可以很好地推广到更长、看不见的推理链,这反映了与具有大分支因子的波束搜索类似的复杂性。

文章链接:

https://arxiv.org/pdf/2312.05180.pdf

d2b95223977b64e208a48022c5638e3f.png

530351d8711552f48cf5545a17562e99.png

740b7a9bcb5d2239cf8ee2ec9a17645a.png

4. Zero-shot Goal-Directed Dialogue via RL on Imagined Conversations

大型语言模型(LLM)已成为许多自然语言任务的强大而通用的解决方案。然而,语言生成的许多最重要的应用都是交互式的,其中代理必须与一个人交谈以达到预期的结果。例如,教师可能会尝试了解学生当前的理解水平并相应地调整他们的指令,旅行代理可能会询问客户的问题以了解他们的偏好,以便推荐他们可能喜欢的活动。使用标准RLHF训练的监督微调或“单步”RL的LLM可能会遇到需要这种目标导向行为的任务,因为它们没有经过训练来优化多轮交互后的整体对话结果。这项工作中探索了一种新方法,用于将LLM与RL适应此类目标导向对话。关键见解是,尽管LLM可能无法有效地解决开箱即用的目标导向对话任务,但它们可以通过模拟次优但类似人类的行为来为解决此类任务提供有用的数据。鉴于目标导向对话任务的文本描述,作者利用LLM对假设的域内人与人交互的多样化合成推出进行采样。然后,算法利用该数据集和离线强化学习来训练交互式对话代理,该代理可以多轮优化目标导向目标。实际上,LLM 会产生可能交互的示例,然后 RL 处理这些示例以学习执行更优化的交互。实验表明所提出的方法在包括教学和偏好启发在内的各种目标导向对话任务中实现了最先进的性能。

文章链接:

https://arxiv.org/pdf/2311.05584.pdf

09cec483ebec63e727bbce69ab195478.png

5cb14ede0c3a6bd581c22bb5c38b950e.png

5. Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia

基于代理的建模已经存在了几十年,并广泛应用于社会科学和自然科学。这项研究方法的范围现在有望随着它吸收大型语言模型(LLM)提供的新可供性而急剧增长。基于生成代理的模型(GABM)不仅仅是经典的基于代理的模型(ABM),其中代理相互交谈。相反,GABM是使用LLM构建的,将常识应用于情况,行为“合理”,回忆常见的语义知识,产生API调用来控制应用程序等数字技术,并在模拟和研究人员从外部查看它。本文提出了一个库Concordia,以促进使用GABM的构建和工作。Concordia可以轻松构建语言介导的物理或数字基础环境的模拟。Concordia代理使用灵活的组件系统产生他们的行为,该系统在两个基本操作之间介导:LLM调用和联想记忆检索。称为游戏主(GM)的特殊代理,它受到桌面角色扮演游戏的启发,负责模拟代理交互的环境。代理通过描述他们想要用自然语言做什么来采取行动。然后GM将他们的动作翻译成适当的实现。在模拟的物理世界中,GM检查代理动作的物理合理性并描述了它们的影响。在模拟应用程序和服务等技术的数字环境中,GM可以处理API调用,以与通用AI助手(例如,Bard、ChatGPT)和数字应用程序(例如,Calendar、电子邮件、搜索等)等外部工具集成。Concordia旨在支持科学研究的广泛应用,并通过模拟用户和/或生成合成数据来评估真实数字服务的性能。

文章链接:

https://arxiv.org/pdf/2312.03664.pdf

85c9e90ff87c6384d7aabde3f47943da.png

3c852f3434efdddc13d5a2541d7245ee.png

往期精彩文章推荐

8852641b0c86454280e29a83180131d0.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看。

e33ac46b59e16c81096b5fd172d307b7.png

我知道你

在看

~

78a53367e0cc4cc2da34e849146e96e4.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值