LLM Agent
文章平均质量分 78
LLM中关于Agent的文章整理,主要是follow Agent的一些进展。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
本文介绍了Aris(基于对抗式多智能体协作的自主研究系统),一款面向机器学习自主研究的开源科研调度框架,涵盖其架构设计、保障机制与早期部署实践。基于大语言模型的智能体系统性能不仅取决于模型权重,更依赖其外围调度框架——即负责信息存储、检索与呈现的系统逻辑。在长周期科研流程中,核心失效模式并非显性崩溃,而是看似合理却无充分证据支撑的伪成功:长期运行的智能体可能生成证据不完整、报告失真或隐含执行端预设偏差的结论。为此,本文提出Aris框架,以跨模型对抗协作。原创 2026-06-01 08:30:00 · 145 阅读 · 0 评论 -
2025_NIPS_Decompose a Task into Generalizable Subtasks in Multi-Agent Reinforcement Learning
该研究聚焦多智能体强化学习(MARL)中的跨任务泛化问题,核心目标是解决现有MARL模型多针对单一任务优化、跨任务迁移能力弱、重新训练成本高的痛点。近年来,多智能体强化学习(MARL)技术在单一任务中取得了显著的渐近性能提升。然而,关于模型的跨任务迁移能力的探索仍较为有限。为每个任务从头训练模型可能耗时且成本高昂,尤其是在大规模多智能体系统中。因此,开发模型的跨任务泛化方法至关重要。考虑到多智能体强化学习任务中存在任务无关的子任务,能够从源任务中分解此类子任务的模型有望泛化到目标任务。原创 2026-05-19 12:30:00 · 374 阅读 · 0 评论 -
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
基于小语言模型的边缘级深度研究智能体因成本、延迟与隐私优势,在实际部署中极具吸引力。本文研究如何在有限开源数据下,通过提升数据质量与数据利用率,训练高性能小型深度研究智能体。我们提出DR‑Venus,一款完全基于开源数据构建、面向边缘部署的前沿4B深度研究智能体。训练方案分为两阶段:第一阶段采用智能体有监督微调(SFT),结合严格数据清洗与长程轨迹重采样,建立基础智能体能力并提升数据质量与利用率;第二阶段应用智能体强化学习(RL),进一步提升长程深度研究任务的执行可靠性。原创 2026-05-15 11:30:00 · 146 阅读 · 0 评论 -
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
GUI智能体通过视觉界面而非编程API驱动应用,以点击、滑动、按键与任意软件交互,覆盖基于CLI的智能体无法触及的长尾应用。该领域进展的瓶颈并非建模能力,而是缺乏连贯的全栈基础设施:在线强化学习训练受环境不稳定与封闭流程制约,不同研究的评估协议存在隐性偏差,训练好的智能体难以落地到真实设备的真实用户场景。本文提出ClawGUI,一个在单一框架内解决上述三大缺口的开源方案。原创 2026-05-15 09:30:00 · 32 阅读 · 0 评论 -
Dive into Claude Code: The Design Space of Today‘s and Future AI Agent Systems
Claude Code 是一款具备智能体能力的编程工具,可代表用户执行 shell 命令、编辑文件并调用外部服务。本研究通过分析其公开的 TypeScript 源码,完整阐述了系统架构,并与独立开源 AI 智能体系统 OpenClaw 展开对比——二者面向相同设计问题,却因部署场景不同给出迥异方案。分析提炼出驱动架构的 5 项人类价值理念,经由 13 项设计原则落地为具体实现。系统核心是调用模型、运行工具并循环迭代的简单 while 循环;原创 2026-05-10 12:30:00 · 51 阅读 · 0 评论 -
RAGEN-2: Reasoning Collapse in Agentic RL
我们发现大语言模型智能体强化学习中存在模板崩塌这一普遍失效模式:智能体生成表面多样、格式规范且奖励稳定的输出,却不依赖输入,转而依赖与任务无关的万能模板。传统监控指标(边际熵、奖励、格式有效性)仅衡量输入内差异,不衡量输入–输出相关性,无法检测该崩塌。我们将根源追溯至策略梯度中的信噪比失衡:任务相关信号与来自KL散度和熵正则化的噪声竞争,低信噪比样本主导参数更新,驱使智能体趋向与输入无关的固定模板。为诊断崩塌,我们引入输入–输出互信息。原创 2026-05-10 11:30:00 · 43 阅读 · 0 评论 -
AgentSPEX: An Agent SPecification and EXecution Language
基于大语言模型的智能体系统通常采用反应式提示机制,即单一指令引导模型完成开放式推理与工具调用步骤,这使得控制流与中间状态处于隐式状态,智能体行为难以控制。LangGraph、DSPy、CrewAI等编排框架通过显式工作流定义引入更强的结构化约束,但将工作流逻辑与Python深度耦合,导致智能体难以维护与修改。本文提出AgentSPEX——一种面向LLM智能体工作流的智能体规范与执行语言,支持显式控制流与模块化结构,并配套可定制的智能体执行框架。原创 2026-05-10 10:30:00 · 27 阅读 · 0 评论 -
SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
像OpenClaw这样的大语言模型(LLM)智能体依赖可复用技能完成复杂任务,但这些技能在部署后基本保持静态。因此,相似的工作流、工具使用模式与失败模式在不同用户间被反复重新发现,阻碍系统随经验持续改进。尽管不同用户的交互能为技能的有效/失效场景提供互补信号,但现有系统缺乏将这类异构经验转化为可靠技能更新的机制。为解决这些问题,本文提出SkillClaw——一个用于多用户智能体生态中技能集体进化的框架,它将跨用户、跨时间的交互作为改进技能的核心信号。原创 2026-05-10 08:30:00 · 50 阅读 · 0 评论 -
2025_NIPS_Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents
随着人工智能系统渗透到人类生活的方方面面,确保大型语言模型(LLMs)做出安全决策仍是一项重大挑战。本文提出了公共资源治理模拟平台(GOVernance of the Commons SIMulation, GOVSIM),这是一个生成式模拟平台,旨在研究大型语言模型中的策略互动与合作决策。在GOVSIM中,一个由人工智能智能体组成的“社会”必须共同平衡对公共资源的利用与为未来使用而维持资源的可持续性。该环境能够研究伦理考量、战略规划和谈判技能如何影响合作结果。原创 2026-05-03 10:30:00 · 28 阅读 · 0 评论 -
2025_NIPS_Large Language Models Miss the Multi-Agent Mark
近年来,学界对大型语言模型多智能体系统(MAS LLMs)的关注日益升温,催生了众多利用多个大型语言模型(LLM)解决复杂任务的框架。然而,此类文献中多数仅借用了多智能体系统(MAS)的术语,却未深入践行其基础原理。在这篇立场论文中,我们重点指出了MAS理论与当前MAS LLMs实现方案之间的关键差异,聚焦四个核心领域:智能体的社会性、环境设计、协调与通信协议,以及涌现行为的度量。原创 2026-04-15 09:30:00 · 30 阅读 · 0 评论 -
CUA-SUITE: MASSIVE HUMAN-ANNOTATED VIDEO DEMONSTRATIONS FOR COMPUTER-USE AGENTS
本文旨在解决当前通用计算机使用代理(CUAs)在专业桌面应用程序中表现不佳的瓶颈。研究指出,现有的基于稀疏屏幕截图的数据集缺乏时间连续性,无法满足构建高级代理的需求。为此,作者提出了CUA-SUITE,这是一个为训练和评估桌面计算机代理而设计的大规模、全栈式生态系统。主要组成部分包括:目前最大的开源专家视频语料库。原创 2026-04-06 08:30:00 · 200 阅读 · 0 评论 -
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
随着多模态大语言模型(MLLM)的快速发展,自主移动 GUI(图形用户界面)智能体受到了越来越多的关注。失败轨迹的低效学习:模型难以从失败经验中有效提取可用的学习信号。稀疏奖励下的信用分配模糊问题:在长时域 GUI 任务中,奖励信号稀疏,难以精确判断哪一步操作导致了成功或失败。随着多模态大语言模型(MLLM)的不断发展,自主移动 GUI 智能体受到了越来越广泛的关注。然而,现有方法在从失败轨迹中高效学习方面仍存在不足,同时在长时域 GUI 任务的稀疏奖励下面临模糊的信用分配问题。原创 2026-04-06 07:30:00 · 266 阅读 · 0 评论 -
OpenClaw-RL: Train Any Agent Simply by Talking
每个已部署的AI智能体都在收集用于自我改进的数据却又将其丢弃。每次动作ata_tat后,智能体都会收到下一状态信号st1s_{t+1}st1:用户回复、工具执行结果、GUI状态转换或测试判定。现有系统仅将其当作下一步动作的上下文。本文提出OpenClaw‑RL,一个基于简单观察构建的框架:下一状态信号具有普遍性,策略可同时从所有信号中学习。个人对话、终端执行、GUI交互、SWE任务与工具调用轨迹并非独立训练问题,它们都是可在同一循环中训练同一策略的交互。原创 2026-03-30 08:30:00 · 281 阅读 · 0 评论 -
MetaClaw: Just Talk – An Agent That Meta-Learns and Evolves in the Wild
大语言模型(LLM)智能体已迅速成为复杂多步任务的强大助手,但实际部署中的智能体大多保持静态——一次训练后便不再改变,无视用户需求的持续演化。这带来一个核心矛盾:智能体必须不间断持续服务用户,却会因真实使用中任务分布漂移而能力过时。在OpenClaw等平台上,单个智能体接入20+消息渠道并处理多样、动态变化的任务负载,现有方案要么仅存储原始轨迹而不提炼可迁移行为知识,要么维护与权重优化脱节的静态技能库,要么在重训练时导致服务停机。原创 2026-03-29 07:30:00 · 37 阅读 · 0 评论 -
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
深度搜索能力已成为前沿大语言模型智能体的核心能力,但高性能搜索智能体的研发仍被工业巨头主导,根源在于缺乏透明、高质量的训练数据。这种数据匮乏严重阻碍了开源社区的创新。基于事实的可扩展可控问答合成:通过网页图拓扑扩展与实体混淆,反向生成可控覆盖度与复杂度的复杂多跳推理任务;去噪轨迹合成:采用回溯摘要机制降噪轨迹,提升教师模型生成高质量动作的能力。原创 2026-03-27 08:30:00 · 170 阅读 · 0 评论 -
Memento-Skills: Let Agents Design Agents
我们提出 Memento‑Skills,一种通用、可持续学习的大语言模型智能体系统,它扮演设计智能体的智能体:通过经验自主构建、适配并改进专用任务智能体。该系统基于带状态提示的记忆式强化学习框架构建,可复用技能(以结构化 Markdown 文件存储)作为持久、可进化的记忆。这些技能编码行为与上下文,使智能体能够在交互间传递知识。系统从简单基础技能(如网页搜索、终端操作)出发,通过 Memento 2 提出的读写反射学习机制持续进化。读取阶段,可训练的技能路由依据当前状态提示选择最相关技能;原创 2026-03-26 10:30:00 · 180 阅读 · 0 评论 -
2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks
对大型语言模型(LLM)智能体进行严格的安全导向评估,对于确保其在软件开发生命周期中安全部署至关重要。然而,现有基准测试大多依赖合成挑战或简化的漏洞数据集,无法捕捉安全工程师在实际工作中遇到的复杂性和模糊性。本文提出SEC-bench,首个用于评估LLM智能体在真实安全工程任务中表现的全自动基准测试框架。SEC-bench采用创新的多智能体架构,自动构建带有测试工具的代码仓库、在隔离环境中复现漏洞,并生成可靠评估所需的标准补丁。原创 2026-03-23 10:47:41 · 628 阅读 · 0 评论 -
2025_NIPS_Group-in-Group Policy Optimization for LLM Agent Training
基于分组的强化学习(RL)最新进展推动了前沿大型语言模型(LLMs)在数学推理等单轮任务中的性能提升,但它们在多轮LLM智能体训练中的扩展性仍受到限制。与静态任务不同,智能体与环境的交互需经历多个步骤,且奖励往往稀疏或延迟,导致个体步骤的信用分配极具挑战性。本文提出一种新型RL算法——Group-in-Group Policy Optimization(GiGPO),该算法在为LLM智能体实现细粒度信用分配的同时,保留了分组RL的核心优势:无评论家(critic-free)、低内存占用和稳定收敛。原创 2026-03-22 07:30:00 · 37 阅读 · 0 评论 -
Discovering Multiagent Learning Algorithms with Large Language Models
多智能体强化学习(MARL)在不完美信息博弈中的大部分进展,历来依赖于对基线算法的人工迭代优化。尽管反事实遗憾最小化(CFR)和策略空间响应预言机(PSRO)等基础算法家族拥有坚实的理论基础,但其最优变体的设计往往需要依赖人类直觉来遍历庞大的算法设计空间。本文提出使用AlphaEvolve——一款由大语言模型驱动的进化编码智能体——来自动发现新型多智能体学习算法。我们通过为两种截然不同的博弈论学习范式进化出新型变体,验证了该框架的通用性。原创 2026-03-13 12:30:00 · 44 阅读 · 0 评论 -
AI Agents as Universal Task Solvers: It’s All About Time
我们将AI智能体描述为随机动力学系统,并将推理学习问题框架化为转导推理:与经典归纳学习中逼近过往数据分布不同,其目标是捕获数据的算法结构,以减少求解新任务所需的时间。在这一视角下,过往经验中的信息不仅像香农经典理论所述那样用于降低模型不确定性,更用于减少求解未预见任务的计算开销。在存在验证器或奖励函数的可验证场景中,我们建立了三大核心结果:首先,我们证明新任务的最优加速比与该任务和训练数据共享的算法信息严格相关,为推理模型中实证观察到的幂律缩放提供了理论证明;原创 2026-03-13 08:30:00 · 27 阅读 · 0 评论 -
2025_NIPS_Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
随着大型语言模型(LLMs)推理能力的不断提升,它们越来越多地被用于复杂的评估任务,例如给学生的回答评分、验证事实性声明以及比较竞争性答案。利用多个LLM作为自动评估器,通过聚合多样化视角可以提高评估的稳健性和准确性,但现有方法通常依赖静态且简单的聚合方式(如多数投票),即便个体评估正确,也可能产生错误的最终判断。本文提出一种新颖的多智能体辩论框架,让LLMs协作推理并迭代优化判断结果,对该过程进行了数学形式化描述,并证明其相较于静态集成的优势。原创 2026-03-10 12:30:00 · 45 阅读 · 0 评论 -
2025_NIPS_LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory
本文聚焦大语言模型(LLMs)的战略推理能力,指出传统基于纳什均衡(NE)的评估存在局限,提出基于行为博弈论的Truncated Quantal Response Equilibrium(TQRE)评估框架。通过13类真实世界抽象游戏,对22个主流LLM进行测试,发现GPT-o1、GPT-o3-mini、DeepSeek-R1等模型推理深度领先;模型推理风格(如极大极小、基于信念)显著影响不同场景表现;人口统计学角色嵌入会引发推理偏差;思维链(CoT)提示对战略推理的提升效果并不一致。原创 2026-03-04 09:30:00 · 42 阅读 · 0 评论 -
2025_NIPS_Learning 3D Persistent Embodied World Models
智能体模拟未来动作对世界影响的能力是嵌入式智能的核心,这一能力使智能体能够预判动作效果并制定相应计划。尽管已有大量研究利用视频模型构建此类世界模型,但这些模型通常具有短视性——无法记忆当前观测图像未捕获的场景部分,导致其在多区域部分观测的复杂环境中难以制定一致的长时程规划。本文提出一种新型持久化嵌入式世界模型,通过显式记忆先前生成的内容,实现更一致的长时程仿真。在生成阶段,我们的视频扩散模型预测智能体未来观测的RGB-D视频,随后将生成结果聚合为环境的持久化3D地图。原创 2026-03-08 08:30:00 · 30 阅读 · 0 评论 -
2025_NIPS_Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating
在现实世界的多智能体系统(MASs)中,观测延迟普遍存在,导致智能体无法基于环境的真实状态做出决策。单个智能体的局部观测通常包含来自其他智能体或环境中动态实体的多个组件。这些具有不同延迟特性的离散观测组件,给多智能体强化学习(MARL)带来了重大挑战。本文首先通过扩展标准Dec-POMDP,形式化定义了去中心化随机个体延迟部分可观测马尔可夫决策过程(DSID-POMDP)。随后,我们提出了彩虹延迟补偿(RDC)——一个用于解决随机个体延迟的MARL训练框架,并为其组成模块提供了推荐实现方案。原创 2026-03-04 08:30:00 · 34 阅读 · 0 评论 -
2025_NIPS_TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
我们在日常生活和工作中频繁与计算机交互,许多工作内容仅通过计算机和互联网即可完成。与此同时,得益于大型语言模型(LLMs)的进步,能够与周边环境交互并产生改变的AI智能体也得到了快速发展。但AI智能体在加速甚至自主执行工作相关任务方面的表现究竟如何?这一问题的答案对于希望将AI融入工作流程的行业,以及旨在理解AI应用对劳动力市场影响的经济政策而言,都具有重要意义。原创 2026-02-28 11:30:00 · 42 阅读 · 0 评论 -
2025_NIPS_RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
随着多模态大语言模型(MLLM)的快速发展,它们正日益被部署为能够完成复杂计算机任务的自主计算机使用代理。然而,一个紧迫的问题随之出现:为对话场景中的通用MLLM设计和对齐的安全风险原则,能否有效迁移到真实世界的计算机使用场景中?现有关于评估基于MLLM的计算机使用代理安全风险的研究存在若干局限:要么缺乏真实的交互环境,要么仅狭隘地聚焦于一种或少数几种特定风险类型。这些局限忽略了真实世界环境的复杂性、可变性和多样性,从而限制了对计算机使用代理的全面风险评估。原创 2026-02-20 14:56:15 · 162 阅读 · 0 评论 -
2025_NIPS_Why Do Multi-Agent LLM Systems Fail?
本文聚焦多智能体大语言模型系统(MAS)性能提升有限的问题,核心探究其失败原因。通过构建包含1642条标注执行轨迹的MAST-Data数据集(覆盖7个主流MAS框架、4类模型和编码、数学等任务),提出首个基于实证的多智能体系统失败分类法(MAST),将失败划分为系统设计问题、智能体间失准、任务验证三大类共14种模式。同时开发LLM-as-a-Judge标注流水线,实现高效标注并与人工标注高度一致(κ=0.77)。原创 2026-02-13 09:30:00 · 161 阅读 · 0 评论 -
2025_NIPS_AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems
基于大语言模型(LLMs)的智能体推荐系统的出现,标志着个性化推荐领域的范式转变。该类系统利用LLM先进的推理与角色扮演能力,实现自主、自适应的决策过程。与传统推荐方法不同,智能体推荐系统能够从复杂环境中动态收集并解读用户-物品交互信息,生成可泛化至多种场景的稳健推荐策略。然而,当前领域缺乏标准化评估协议来系统评估这些方法。为填补这一关键空白,我们提出:(1)一个融合丰富用户与物品元数据的交互式文本推荐模拟器,包含三种典型评估场景(经典推荐、兴趣演化推荐和冷启动推荐任务);原创 2026-02-06 17:41:41 · 83 阅读 · 0 评论 -
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
全生命周期基准测试:首次提出覆盖后端开发完整链路的基准测试,包含仓库探索、环境配置、部署和端到端测试等环节,填补了现有基准测试的场景空白。自动化任务构建流程:设计自动化工具链,大幅降低人工干预成本,能够从开源仓库中高效生成高保真的真实开发任务。精准瓶颈分析:通过拆解任务流程,明确指出环境配置是当前大模型智能体的主要短板,同时揭示了交互深度与任务成功率的强相关性,为后续模型优化提供了明确方向。原创 2026-02-03 10:30:00 · 58 阅读 · 0 评论 -
Agentic Reasoning for Large Language Models
推理是推理、问题解决和决策制定的基础认知过程。虽然大型语言模型(LLMs)在封闭世界场景中展现出强大的推理能力(例如数学和代码领域的标准基准测试),但它们在开放式动态环境中仍面临挑战。智能体推理(Agentic Reasoning)的出现标志着一种范式转变,通过将LLMs重构为能够通过持续交互进行规划、行动和学习的自主智能体,架起了思维与行动之间的桥梁。在本综述中,我们通过三个互补维度组织智能体推理,提供了一个系统的研究路线图。原创 2026-02-03 09:30:00 · 211 阅读 · 0 评论 -
LLM-in-Sandbox Elicits General Agentic Intelligence
我们提出了框架,使大语言模型能够在代码沙箱(即虚拟计算机)内探索,以此激发模型在非代码领域的通用智能。首先,我们证明了性能强大的大语言模型无需额外训练,就具备利用代码沙箱完成非代码任务的泛化能力。例如,大语言模型可自主访问外部资源获取新知识、利用文件系统处理超长上下文、执行脚本满足格式要求。进一步,我们提出LLM-in-Sandbox强化学习(LLM-in-Sandbox-RL),该方法仅使用非智能体数据训练模型的沙箱探索能力。原创 2026-02-03 07:30:00 · 44 阅读 · 0 评论 -
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
这篇论文提出了一种名为EvoCUA的原生计算机使用智能体模型,旨在解决传统智能体依赖静态数据集模仿学习、无法捕捉长程任务因果动态的瓶颈。核心框架EvoCUA 构建了“可验证合成引擎-可扩展交互基础设施-迭代进化学习”的自循环体系。可验证合成引擎自主生成带可执行验证器的多样化任务,解决数据稀缺问题;可扩展交互基础设施支持数万异步沙箱并行运行,实现大规模经验采集;迭代进化学习策略通过分析成功与失败轨迹,动态优化模型策略。实验效果。原创 2026-02-02 16:30:00 · 42 阅读 · 0 评论 -
Specification and Evaluation of Multi-Agent LLM Systems - Prototype and Cybersecurity Applications
本文聚焦于多智能体大型语言模型(LLM)系统的规范设计与评估,提出通过整合LLM推理能力、代码生成和软件执行构建多智能体系统,以解决复杂任务。研究背景:最新LLM(如OpenAI和DeepSeek模型)在推理能力上取得突破,但多智能体系统的联合规范与应用评估尚未被充分探索。系统架构与规范:设计了支持多智能体协作的架构,定义了包含智能体类型、执行函数、评估函数的模式语言(如JSON格式),可指定提示模板、任务动作及结果评估逻辑。实验验证。原创 2026-02-02 11:30:00 · 237 阅读 · 0 评论 -
WebSailor: Navigating Super-human Reasoning for Web Agent
本文针对开源模型在复杂信息检索任务中与专有系统(如DeepResearch)存在的性能差距,提出了一种名为WebSailor的完整后训练方法,旨在赋予开源模型“系统性降低高不确定性”的超人类推理能力。核心问题:开源模型在处理高不确定性、无预定义路径的复杂信息任务(Level 3任务)时表现极差,而专有系统因具备独特推理模式(如系统性降低不确定性)表现优异。方法框架高不确定性任务生成。原创 2026-02-02 08:30:00 · 44 阅读 · 0 评论 -
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement
本文介绍了一种名为SPIRAL的自我对弈框架,旨在通过多智能体多轮强化学习提升语言模型(LLMs)的推理能力。核心思路是让模型在零和游戏中与不断进化的自身版本进行多轮对弈,无需人类标注数据或特定领域的奖励工程。核心机制零和游戏(如Kuhn Poker、井字棋、简单谈判)提供了理想的训练环境,规则清晰、结果可验证,且需要战略思考和规划。通过自我对弈,模型生成无限的、难度递增的训练数据(自动课程),迫使模型持续适应更强的对手,避免过拟合到静态策略。技术实现。原创 2026-01-29 07:30:00 · 46 阅读 · 0 评论 -
2025_NIPS_DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents
大型语言模型(LLMs)凭借其强大的推理和规划能力,正日益成为智能体系统的核心。这些智能体通过预定义工具与外部环境交互,能够执行复杂的用户任务。然而,这种交互也引入了提示注入攻击的风险——来自外部来源的恶意输入可能误导智能体行为,进而导致经济损失、隐私泄露或系统受损。近期,系统级防御通过实施静态或预定义策略展现出一定潜力,但仍面临两大关键挑战:安全规则的动态更新能力和内存流隔离需求。原创 2026-01-23 14:30:00 · 56 阅读 · 0 评论 -
2025-NIPS_Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective
该研究针对多智能体强化学习(MARL)中环境建模的高复杂度问题,提出了一种受扩散模型启发的多智能体世界模型(DIMA)。通过将多智能体动态预测重构为条件去噪过程,DIMA采用集中式建模方案,在保持全局一致性的同时,使计算复杂度随智能体数量线性增长。研究在MAMuJoCo和Bi-DexHands等连续控制基准测试中验证了DIMA的优越性,其在样本效率和最终回报上显著优于现有模型基和无模型MARL方法。世界模型近年来在多智能体强化学习(MARL)中引起了广泛关注,因其能够提高策略学习的样本效率。原创 2026-01-22 10:30:00 · 67 阅读 · 0 评论 -
2025_NIPS_Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Lear
本文通过82620次大规模实验,系统研究了协作多智能体强化学习(MARL)的鲁棒性(抵御不确定性)和韧性(扰动后恢复能力),核心发现包括:轻度不确定性下优化协作可提升鲁棒性与韧性,但扰动加剧后该关联弱化;鲁棒性和韧性无法跨不确定性模态(观测/动作/环境)或智能体范围(单个/全体)泛化;超参数调优对可信MARL至关重要,部分常用策略(如参数共享、GAE)会损害性能,而早停、高评论家学习率等策略持续有效。原创 2026-01-20 08:30:00 · 404 阅读 · 0 评论 -
2025_NIPS_ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions
大型语言模型(LLM)的最新进展已推动智能体从被动响应向主动支持演进。尽管前景广阔,但现有主动智能体要么完全依赖封闭环境(如桌面用户界面)的观测结果进行直接LLM推理,要么采用基于规则的主动通知机制,导致用户意图理解效果不佳,且主动服务功能受限。本文提出ContextAgent,这是首个融合人类周边丰富感官上下文的上下文感知主动智能体,旨在提升LLM智能体的主动性。ContextAgent首先从可穿戴设备的海量感官感知数据(如视频、音频)中提取多维度上下文,以理解用户意图;原创 2026-01-18 11:30:00 · 200 阅读 · 0 评论 -
2025_NIPS_AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems
大语言模型(LLMs)的快速发展推动了多智能体系统的进步,多个基于LLM的智能体可协作完成复杂任务。然而,现有系统通常依赖集中式协调,导致扩展性瓶颈、适应性下降和单点故障问题。隐私与专有知识顾虑进一步阻碍了跨组织协作,形成知识孤岛。本文提出AgentNet,一种去中心化、基于检索增强生成(RAG)的框架,支持基于LLM的智能体在动态结构化的有向无环图(DAG)中实现专业化、进化与自主协作。与之前采用静态角色或集中式控制的方法不同,AgentNet允许智能体根据本地专业知识和上下文调整连接关系并路由任务。原创 2026-01-18 08:30:00 · 125 阅读 · 0 评论
分享