大模型日报｜4 篇必读的大模型论文

最新推荐文章于 2025-05-03 09:07:35 发布

AI大模型头条

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量823

点赞数 17

分类专栏：每日大模型论文文章标签：人工智能语言模型 ai gpt 机器学习

本文链接：https://blog.csdn.net/AMiner2006/article/details/146046058

版权

每日大模型论文专栏收录该内容

175 篇文章

订阅专栏

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

西湖大学提出 GUI agent 进化框架 AppAgentX

大语言模型（LLM）促使人们开发出了能够与图形用户界面（GUI）交互的基于 LLM 的智能体（agent）。这些 agent 展示了强大的推理能力和适应能力，使它们能够执行传统上需要预定义规则的复杂任务。然而，基于 LLM 的 agent 依赖于逐步推理，这往往会导致效率低下，尤其是在执行常规任务时。相比之下，传统的基于规则的系统在效率方面表现出色，但缺乏适应新情况的智能和灵活性。

为了应对这一挑战，来自西湖大学的研究团队及其合作者为 GUI agent 提出了一个进化框架，在提高操作效率的同时保留了智能性和灵活性。这一方法包含一种记忆机制，可记录 agent 的任务执行历史。通过分析这些历史记录，agent 可以识别出重复的操作序列，并进化出作为捷径的高级操作，从而取代这些低级操作并提高效率。这样，agent 就能专注于需要更复杂推理的任务，同时简化常规操作。

多个基准任务的实验结果表明，这一方法在效率和准确性上都明显优于现有方法。

论文链接：
https://arxiv.org/abs/2503.02268

ATLaS：通过学习关键步骤「微调」agent

大语言模型智能体（agent LLM）已在多领域任务中展现出优秀的泛化能力。现有的 agent 调整方法通常采用对整个专家轨迹进行监督微调的方法。然而，对完整轨迹进行行为克隆可能会引入专家偏差，削弱对专家数据未涵盖状态的泛化能力。此外，关键步骤（如规划、中间子任务的复杂推理和战略决策）对 agent 任务的成功至关重要，因此学习这些步骤是改进 LLM agent 的关键。

为了更有效、更高效地调整 agent，来自悉尼科技大学和马里兰大学的研究团队及其合作者提出了 ATLaS，它能识别专家轨迹中的关键步骤，并仅根据这些步骤对 LLM 进行微调，从而降低成本。通过将训练重点转向几个关键步骤，这一方法降低了整个轨迹的过拟合风险，并促进了在不同环境和任务中的泛化。

在大量实验中，ATLaS 仅对 30% 的关键步骤进行微调的 LLM 优于对所有步骤进行微调的 LLM 和最近的开源 LLM agent。ATLaS 作为与不同环境交互的通用 agent，保持并提高了基本的 LLM 技能。

论文链接：
https://arxiv.org/abs/2503.02197

北大团队提出「agent 规划提升」框架 MPO

大语言模型（LLM）使得基于 LLM 的智能体（agent）能够成功应对交互式规划任务。然而，现有方法经常出现规划幻觉，而且每个新的 agent 都需要重新训练。

为了应对这些挑战，来自北京大学的研究团队及其合作者提出了“元计划优化”（Meta Plan Optimization，MPO）框架，通过直接纳入显式指导来增强 agent 规划能力。以往的方法依赖于复杂的知识，要么需要大量人力，要么缺乏质量保证，而 MPO 则不同，它通过元计划利用高层次的一般指导来协助 agent 规划，并根据 agent 执行任务的反馈对元计划进行持续优化。

他们在两个具有代表性的任务上进行的实验表明，MPO 的性能明显优于现有基线。此外，分析表明，MPO 提供了一种即插即用的解决方案，可在以前未见过的场景中提高任务完成效率和概括能力。

论文链接：
https://arxiv.org/abs/2503.02682
GitHub 地址：
https://github.com/WeiminXiong/MPO

MultiAgentBench：LLM agent 合作与竞争评估

大语言模型（LLM）作为自主智能体（agent）已显示出非凡的能力，但现有基准要么专注于单 agent 任务，要么局限于狭窄的领域，无法捕捉到多 agent 协调和竞争的动态。

在这项工作中，伊利诺伊大学厄巴纳-香槟分校团队提出了一个综合基准——MultiAgentBench，旨在评估基于 LLM 的多 agent 系统在各种互动场景中的表现。这一框架不仅能够测量任务完成情况，还可以使用新颖的、基于里程碑的关键性能指标测量协作和竞争的质量。此外，他们还评估了各种协调协议（包括星形、链形、树形和图拓扑）以及创新策略（如小组讨论和认知规划）。值得注意的是，gpt-4o-mini 达到了平均最高任务得分，图结构在研究场景中的协调协议中表现最佳，认知规划将里程碑完成率提高了 3%。

论文链接：
https://arxiv.org/abs/2503.01935
GitHub 地址：
https://github.com/MultiagentBench/MARBLE