ACL 2024 | 智能体学习框架:经验式共同学习,增强多智能体协作式软件开发能力...

点击蓝字

ea98c04bfe5b3a6ab81be3f299d5c584.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日,清华大学NLP等研究人员提出了崭新的多智能体学习框架: “经验式共同学习” (Experiential Co-Learning),用于增强智能体在解决未见任务时的交互式任务解决能力。该系统搭建在 ChatDev 之上,有效驱动了 ChatDev 中两类智能体(Instructor和Assistant)利用已往的任务执行经验在未见软件开发任务上进行协同推理。

ab124e3b1fb4af863d7ce9aca2a70cf0.png

论文信息

 ➤  论文链接 

 🔗 https://arxiv.org/abs/2312.17025

 ➤  开源链接 

 🔗 https://github.com/OpenBMB/ChatDev

6954c0139e77971d728315b6a3683784.png

研究背景

随着大语言模型(LLMs)的飞速发展,通过 LLM 驱动的智能体(Agent)能够自主完成任务,减少了对人类介入的需求。为了使智能体适应并解决更复杂的任务,过往的研究工作提出了智能体适应并记忆上下文,多步骤规划和战略性的使用外部工具等能力框架。这些工作的提出极大程度增强了智能体在社会模拟、软件开发、游戏和科学研究等复杂场景的问题解决能力。

然而,智能体在处理当前任务时,如果未积累过往经验,未从过往经验中学习,可能导致在任务解决中的多次低效尝试或重复犯错。为此,论文介绍了经验式共同学习框架,其中指导者(Instructor)和助手(Assistant)智能体从他们的历史轨迹中收集以捷径(Shortcut)为导向的经验,形成经验池,在经验池上进行共同推理,最终在软件工程任务上展现出更强的交互式任务解决能力

49df127fafc6c513356c9ca0a37551e0.png

系统架构

d70fb0240d4ddc1af0b132b9a4e96137.jpeg

经验式共同学习(Experiential Co-Learning)系统架构

“经验式共同学习”(Experiential Co-Learning) 通过三个专门的模块实现:共同寻迹 (Co-Tracking)、共同记忆 (Co-Memorizing) 和共同推理 (Co-Reasoning)。

 ➤  共同寻迹 

共同寻迹(Co-Tracking)模块中,在丰富的训练集任务上,指导者(Instructor)智能体发出指令,助手(Assistant)智能体根据指令回复,智能体之间通过此种方式交互,协作完成任务,形成了一系列历史轨迹。

 ➤  共同记忆 

共同记忆(Co-Memorizing)模块中,从历史轨迹中提取策略性 “捷径”,构建智能体共享经验池。在历史任务执行轨迹中,单步的执行情况受由基座模型能力的影响,不足以为智能体提供有额外价值的经验。同时考虑到在智能体的多步任务执行过程中,结果并非总是随着迭代过程的进行而变好,会出现版本回退,循环执行,改错等情况。因此,相比于基于任务执行序列构建经验,此处基于历史轨迹首先构建任务执行图,在图的基础上提取任务执行中的 “捷径”,构成高质量经验,最终积累成为经验池。

 ➤  共同推理 

共同推理 (Co-Reasoning) 模块中,在经验池完成积累的基础上,智能体根据当前信息,从经验池中检索出相关性最强的某条或多条经验,检索结果作为提示对智能体可见。智能体通过检索从而利用先前的经验积累,智能体之间通过对话方式交互,最终在未见任务上完成推理。

76615913661e4fe80e71e4097d527190.png

实验评估

实验评估中,需要对于软件级别的代码进行评估。考虑到先前对于代码的评估大多是函数级别(如 pass@k),但此种指标并无法直接迁移到综合性软件评估上。为了对软件完成综合评价,实验评估中考虑了以下三个维度并实现了其自动化评估:

 ➤  完成性(Completeness)

软件代码是否全部完成,无 “TODO” 等未填充标识。

 ➤  可执行性(Executability)

软件代码是否可通过编译器检查并成功运行。

 ➤  一致性(Consistency)

软件代码实现是否和自然语言表述的任务需求一致。

在以上三个维度基础上,进一步得到了软件评价的综合质量指标:软件质量(Quality)。

由此,综合考虑完成性、可执行性和一致性等三个维度,实现了对软件的综合自动化评估。对比三种 LLM 驱动的智能体软件开发框架,Co-Learning 展现出明显的能力提升。

931cca1311755a75fd53b14fc300dcba.jpeg

客观软件质量评估结果

在 GPT-4 评估和人类评估上,Co-Learning 也均展现出较显著的优势。

74174efaae2938bb249c0cb072aeefe4.jpeg

主观软件质量对比结果

任务执行图中的边和节点等元素,反映了任务执行中所需要的执行步骤数目。在软件开发过程中,Co-Learning 展现出更少的迭代次数,在效率上获得了较大提升。这证明了捷径经验的积累有助于建立智能体的 “Shortcut thinking”,从而在未见任务上展现出更高的解决任务效率。

131d45595a96cff9450e37bacc70d326.jpeg

智能体经验带来的性能优势对比结果

f401f82fdbe3ccd5a54885c946959e45.png

创新点

本研究成果在大模型智能体群体协作中首次引入经验积累和使用机制,驱动两类智能体(Instructor和Assistant)利用已往的任务执行经验在未见任务上进行协同推理,有效缓解了无经验指导引发的重复性错误或低效优化进程等问题。

d8525ff86f7c61008fc009ab262e7173.png

总结

本研究成果提出了 “经验式共同学习” (Experiential Co-Learning) 框架,为智能体引入经验。智能体通过利用经验,在交互中完成推理,实现在未见任务上的自动化程度和执行效率的显见提升。

65da6b2c5e8fe9bf809da4edf2d13b26.png

点击 阅读原文 观看作者直播讲解回放!

往期精彩文章推荐

6b4674d112412e80084caf1f5c65bac2.png

ACL 2024 | AI新突破:RA-ISF框架助力大型语言模型解决复杂问题

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

f6399fb8aee6f7eba5d7d37ba299c2b2.png

我知道你

在看

提出观点,表达想法,欢迎

留言

e1bc699d9659c30f884f083166791232.gif

点击 阅读原文 观看作者直播讲解回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值