大家好,今日必读的大模型论文来啦!
西湖大学提出 GUI agent 进化框架 AppAgentX
大语言模型(LLM)促使人们开发出了能够与图形用户界面(GUI)交互的基于 LLM 的智能体(agent)。这些 agent 展示了强大的推理能力和适应能力,使它们能够执行传统上需要预定义规则的复杂任务。然而,基于 LLM 的 agent 依赖于逐步推理,这往往会导致效率低下,尤其是在执行常规任务时。相比之下,传统的基于规则的系统在效率方面表现出色,但缺乏适应新情况的智能和灵活性。
为了应对这一挑战,来自西湖大学的研究团队及其合作者为 GUI agent 提出了一个进化框架,在提高操作效率的同时保留了智能性和灵活性。这一方法包含一种记忆机制,可记录 agent 的任务执行历史。通过分析这些历史记录,agent 可以识别出重复的操作序列,并进化出作为捷径的高级操作,从而取代这些低级操作并提高效率。这样,agent 就能专注于需要更复杂推理的任务,同时简化常规操作。
多个基准任务的实验结果表明,这一方法在效率和准确性上都明显优于现有方法。
论文链接:
https://arxiv.org/abs/2503.02268
ATLaS:通过学习关键步骤「微调」agent
大语言模型智能体(agent LLM)已在多领域任务中展现出优秀的泛化能力。现有的 agent 调整方法通常采用对整个专家轨迹进行监督微调的方法。然而,对完整轨迹进行行为克隆可能会引入专家偏差,削弱对专家数据未涵盖状态的泛化能力。此外,关键步骤(如规划、中间子任务的复杂推理和战略决策)对 agent 任务的成功至关重要,因此学习这些步骤是改进 LLM agent 的关键。
为了更有效、更高效地调整 agent,来自悉尼科技大学和马里兰大学的研究团队及其合作者提出了 ATLaS,它能识别专家轨迹中的关键步骤,并仅根据这些步骤对 LLM 进行微调,从而降低成本。通过将训练重点转向几个关键步骤,这一方法降低了整个轨迹的过拟合风险,并促进了在不同环境和任务中的泛化。
在大量实验中,ATLaS 仅对 30% 的关键步骤进行微调的 LLM 优于对所有步骤进行微调的 LLM 和最近的开源 LLM agent。ATLaS 作为与不同环境交互的通用 agent,保持并提高了基本的 LLM 技能。
论文链接:
https://arxiv.org/abs/2503.02197
北大团队提出「agent 规划提升」框架 MPO
大语言模型(LLM)使得基于 LLM 的智能体(agent)能够成功应对交互式规划任务。然而,现有方法经常出现规划幻觉,而且每个新的 agent 都需要重新训练。
为了应对这些挑战,来自北京大学的研究团队及其合作者提出了“元计划优化”(Meta Plan Optimization,MPO)框架,通过直接纳入显式指导来增强 agent 规划能力。以往的方法依赖于复杂的知识,要么需要大量人力,要么缺乏质量保证,而 MPO 则不同,它通过元计划利用高层次的一般指导来协助 agent 规划,并根据 agent 执行任务的反馈对元计划进行持续优化。
他们在两个具有代表性的任务上进行的实验表明,MPO 的性能明显优于现有基线。此外,分析表明,MPO 提供了一种即插即用的解决方案,可在以前未见过的场景中提高任务完成效率和概括能力。
论文链接:
https://arxiv.org/abs/2503.02682
GitHub 地址:
https://github.com/WeiminXiong/MPO
MultiAgentBench:LLM agent 合作与竞争评估
大语言模型(LLM)作为自主智能体(agent)已显示出非凡的能力,但现有基准要么专注于单 agent 任务,要么局限于狭窄的领域,无法捕捉到多 agent 协调和竞争的动态。
在这项工作中,伊利诺伊大学厄巴纳-香槟分校团队提出了一个综合基准——MultiAgentBench,旨在评估基于 LLM 的多 agent 系统在各种互动场景中的表现。这一框架不仅能够测量任务完成情况,还可以使用新颖的、基于里程碑的关键性能指标测量协作和竞争的质量。此外,他们还评估了各种协调协议(包括星形、链形、树形和图拓扑)以及创新策略(如小组讨论和认知规划)。值得注意的是,gpt-4o-mini 达到了平均最高任务得分,图结构在研究场景中的协调协议中表现最佳,认知规划将里程碑完成率提高了 3%。
论文链接:
https://arxiv.org/abs/2503.01935
GitHub 地址:
https://github.com/MultiagentBench/MARBLE