点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
近日,清华大学NLP等研究人员提出了崭新的多智能体学习框架: “经验式共同学习” (Experiential Co-Learning),用于增强智能体在解决未见任务时的交互式任务解决能力。该系统搭建在 ChatDev 之上,有效驱动了 ChatDev 中两类智能体(Instructor和Assistant)利用已往的任务执行经验在未见软件开发任务上进行协同推理。
论文信息
➤ 论文链接
🔗 https://arxiv.org/abs/2312.17025
➤ 开源链接
🔗 https://github.com/OpenBMB/ChatDev
研究背景
随着大语言模型(LLMs)的飞速发展,通过 LLM 驱动的智能体(Agent)能够自主完成任务,减少了对人类介入的需求。为了使智能体适应并解决更复杂的任务,过往的研究工作提出了智能体适应并记忆上下文,多步骤规划和战略性的使用外部工具等能力框架。这些工作的提出极大程度增强了智能体在社会模拟、软件开发、游戏和科学研究等复杂场景的问题解决能力。
然而,智能体在处理当前任务时,如果未积累过往经验,未从过往经验中学习,可能导致在任务解决中的多次低效尝试或重复犯错。为此,论文介绍了经验式共同学习框架,其中指导者(Instructor)和助手(Assistant)智能体从他们的历史轨迹中收集以捷径(Shortcut)为导向的经验,形成经验池,在经验池上进行共同推理,最终在软件工程任务上展现出更强的交互式任务解决能力。
系统架构
经验式共同学习(Experiential Co-Learning)系统架构
“经验式共同学习”(Experiential Co-Learning) 通过三个专门的模块实现:共同寻迹 (Co-Tracking)、共同记忆 (Co-Memorizing) 和共同推理 (Co-Reasoning)。
➤ 共同寻迹
共同寻迹(Co-Tracking)模块中,在丰富的训练集任务上,指导者(Instructor)智能体发出指令,助手(Assistant)智能体根据指令回复,智能体之间通过此种方式交互,协作完成任务,形成了一系列历史轨迹。
➤ 共同记忆
共同记忆(Co-Memorizing)模块中,从历史轨迹中提取策略性 “捷径”,构建智能体共享经验池。在历史任务执行轨迹中,单步的执行情况受由基座模型能力的影响,不足以为智能体提供有额外价值的经验。同时考虑到在智能体的多步任务执行过程中,结果并非总是随着迭代过程的进行而变好,会出现版本回退,循环执行,改错等情况。因此,相比于基于任务执行序列构建经验,此处基于历史轨迹首先构建任务执行图,在图的基础上提取任务执行中的 “捷径”,构成高质量经验,最终积累成为经验池。
➤ 共同推理
共同推理 (Co-Reasoning) 模块中,在经验池完成积累的基础上,智能体根据当前信息,从经验池中检索出相关性最强的某条或多条经验,检索结果作为提示对智能体可见。智能体通过检索从而利用先前的经验积累,智能体之间通过对话方式交互,最终在未见任务上完成推理。
实验评估
实验评估中,需要对于软件级别的代码进行评估。考虑到先前对于代码的评估大多是函数级别(如 pass@k),但此种指标并无法直接迁移到综合性软件评估上。为了对软件完成综合评价,实验评估中考虑了以下三个维度并实现了其自动化评估:
➤ 完成性(Completeness)
软件代码是否全部完成,无 “TODO” 等未填充标识。
➤ 可执行性(Executability)
软件代码是否可通过编译器检查并成功运行。
➤ 一致性(Consistency)
软件代码实现是否和自然语言表述的任务需求一致。
在以上三个维度基础上,进一步得到了软件评价的综合质量指标:软件质量(Quality)。
由此,综合考虑完成性、可执行性和一致性等三个维度,实现了对软件的综合自动化评估。对比三种 LLM 驱动的智能体软件开发框架,Co-Learning 展现出明显的能力提升。
客观软件质量评估结果
在 GPT-4 评估和人类评估上,Co-Learning 也均展现出较显著的优势。
主观软件质量对比结果
任务执行图中的边和节点等元素,反映了任务执行中所需要的执行步骤数目。在软件开发过程中,Co-Learning 展现出更少的迭代次数,在效率上获得了较大提升。这证明了捷径经验的积累有助于建立智能体的 “Shortcut thinking”,从而在未见任务上展现出更高的解决任务效率。
智能体经验带来的性能优势对比结果
创新点
本研究成果在大模型智能体群体协作中首次引入经验积累和使用机制,驱动两类智能体(Instructor和Assistant)利用已往的任务执行经验在未见任务上进行协同推理,有效缓解了无经验指导引发的重复性错误或低效优化进程等问题。
总结
本研究成果提出了 “经验式共同学习” (Experiential Co-Learning) 框架,为智能体引入经验。智能体通过利用经验,在交互中完成推理,实现在未见任务上的自动化程度和执行效率的显见提升。
点击 阅读原文 观看作者直播讲解回放!
往期精彩文章推荐
ACL 2024 | AI新突破:RA-ISF框架助力大型语言模型解决复杂问题记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看作者直播讲解回放!