自进化多智能体：经验库保留成功推理轨迹并优化失败轨迹，解决多智能体优化难，训练数据稀缺，医学问答飙升 22%

自进化多智能体：经验库保留成功推理轨迹并优化失败轨迹，解决多智能体优化难，训练数据稀缺，医学问答飙升 22%

论文大纲
1. Why（研究动机：要解决什么现实问题）
2. What（核心发现或论点）
3. How（研究过程与方法）
3.1 前人研究的局限性
3.2 创新方法/视角
3.3 关键数据支持
3.4 可能的反驳及应对

4. How good（研究的理论贡献和实践意义）
设计思路
1. 作者的元思路
2. 作者的主要观察（Observation）
3. 作者的主要假设（Hypothesis）
4. 数据与结论（作者对观察与假设的检验）

数据分析
第一步：收集所需数据
第二步：处理与挖掘数据，寻找规律
第三步：探索数据维度间的相关性
第四步：建立数学模型

1. 拆解【解法】
1.1 技术（公式形式拆解）
1.2 要解决的问题
1.3 与同类算法/框架的主要区别

2. 把整个解法拆解为更具体的子解法
2.1 子解法1：多智能体角色分工
举个例子

2.2 子解法2：成功轨迹收集 + 监督微调
举个例子

2.3 子解法3：失败轨迹增补 + 重写训练
举个例子

3. 这些子解法是什么样的逻辑链？（链条 or 网络）
4. 分析是否有隐性方法，以及潜在的隐性特征
4.1 是否存在隐性方法
4.2 是否存在隐性特征

5. 方法可能存在哪些潜在局限性
总结

提问
0. reward函数是针对整个task的，还是每个agent的response都要判断下？
1. 关于多智能体
2. 关于失败轨迹
3. 关于谈判对抗
4. 关于数据覆盖
5. 关于奖励函数
6. 关于增补机制的有效性
7. 关于多语言模型
8. 关于拓展场景
9. 关于无监督场景
10. 关于Critic Agent能力
11. 关于对比实验
12. 关于监督微调成本
13. 关于可扩展性
14. 关于信用分配
15. 关于对抗场景的衡量指标
16. 关于现实应用
17. 关于多次反馈
18. 关于隐性方法
19. 关于安全性
20. 关于未来展望

论文：SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning

代码：https://github.com/zou-group/sirius

论文大纲

├── 1 SIRIUS 框架概述【总体介绍】
│      
│      ├── 1.1 研究背景【问题背景】
│      │         ├── 多智能体系统在复杂任务中的应用【技术需求】
│      │         └── 大型语言模型（LLMs）推理能力的局限性【挑战说明】
│      │
│      ├── 1.2 研究目标【目标设定】
│      │         └── 实现多智能体协作下的自我改进与优化【核心目标】
│      │
│      └── 1.3 关键挑战【核心问题】
│                ├── 信用归因困难【问题描述】
│                └── 训练信号采集与经验数据不足【具体难点】
│
├── 2 SIRIUS 方法论【方法框架】
│      
│      ├── 2.1 多智能体协作架构【系统构成】
│      │         ├── 专家角色分工（物理学家、数学家、总结者等）【职责划分】
│      │         └── 竞争与合作设置（问题求解、博弈对抗）【任务类型】
│      │
│      ├── 2.2 迭代自我改进机制【自我提升流程】
│      │         ├── 反馈获取与错误修正【自纠机制】
│      │         └── 成功推理轨迹的经验库构建【数据增强】
│      │
│      └── 2.3 微调与联合优化策略【优化手段】
│                ├── 多轮迭代训练【性能提升】
│                └── 专用角色模型的微调【优化分工】
│
├── 3 实验与结果【性能评估】
│      
│      ├── 3.1 问题求解任务【应用场景】
│      │         ├── College-Physics / College-Chemistry【领域应用】
│      │         └── PubMedQA 生物医学问答【实际案例】
│      │
│      ├── 3.2 竞争性博弈任务【策略实验】
│      │         ├── 资源交换游戏【合作与竞争】
│      │         ├── 多轮最后通牒博弈【策略谈判】
│      │         └── 买卖博弈【市场模拟】
│      │
│      └── 3.3 性能比较与提升【结果对比】
│                ├── 超越单智能体方法【优势展示】
│                └── 多智能体协作效应【综合改进】
│
├── 4 相关工作与创新点【文献对比】
│      
│      ├── 4.1 传统推理方法（如 Chain-of-Thought 等）【背景介绍】
│      ├── 4.2 自我改进模型探索【技术演进】
│      └── 4.3 多智能体系统发展【领域前沿】
│
└── 5 结论与展望【总结与未来】
         ├── 5.1 主要贡献【成果概述】
         └── 5.2 未来研究方向【发展趋势】

核心方法：

├── 1 输入数据与初始配置【系统输入】
│      ├── 1.1 多任务问题集【模型要处理的问题】
│      │         └── 包含不同领域或不同性质的问题（如物理、化学、生物医学、博弈场景等）
│      └── 1.2 多智能体初始参数【初始策略或语言模型权重】
│                └── 每个代理（如物理学家、数学家、总结者、判定者等）都基于初始 LLM 权重

├── 2 处理过程【核心方法流程】
│      ├── 2.1 多智能体动作采样【从输入到多轮协作输出】
│      │         ├── 说明：给定当前问题或交互状态，各代理依次根据自己的策略输出“动作”或“回答”
│      │         └── 技术与方法：依托 LLM 进行推理（例如通过 Prompt 设计，使代理分别扮演不同角色）
│      │
│      ├── 2.2 轨迹评估与经验库构建【数据收集】
│      │         ├── 说明：对多智能体交互产生的完整“对话轨迹”进行评价，判断解答是否正确或有效
│      │         ├── 技术与方法：
│      │         │         ├── (a) 依据任务最终正确率或收益（Reward）来判定是否“成功”
│      │         │         └── (b) 记录成功轨迹中的关键推理步骤，存储到经验库中
│      │         └── 【XXX】代表从成功轨迹中学习有用的协作模式和逻辑
│      │
│      ├── 2.3 经验轨迹增强【对失败案例的修正与再利用】
│      │         ├── 说明：若评估失败，则通过附加的“反馈Agent”或“批判Agent”生成纠正意见，并进行答案重生成
│      │         ├── 技术与方法：
│      │         │         ├── (a) 让外部或额外角色（Critic）对失败解答给出详细错误分析
│      │         │         ├── (b) 重新 Prompt 生成新答案，再用“重述/改写”步骤使最终答案流畅且不暴露纠正轨迹
│      │         │         └── (c) 将改写后的新轨迹也加入经验库，以增加多样性
│      │         └── 【XXX】代表将“失败-纠正-重生成”的过程纳入训练数据，丰富模型自我改进能力
│      │
│      └── 2.4 监督微调【基于经验库的模型优化】
│             ├── 说明：利用成功与增强后的轨迹来对各代理角色进行监督微调
│             ├── 技术与方法：
│             │         ├── (a) 将不同角色（如物理学家、数学家、总结者、判定者等）各自的“优秀回答”进行微调
│             │         ├── (b) 多轮迭代训练：每一次微调后，更新过的模型会再生成新的解答和失败纠正数据
│             │         └── (c) 不断循环迭代，逐步提高多智能体的联合解决问题能力
│             └── 【XXX】代表从经验库监督学习，形成新策略并实现多智能体的协同优化

└── 3 输出与改进【整体产出】
       ├── 3.1 新的多智能体策略【迭代结果】
       │      └── 各代理角色在分工协作中累积学习，更好地协同解决复杂任务
       └── 3.2 自我改进能力【持续演化】
              ├── 说明：多智能体系统在不断采样、评估、增强、微调的循环中得到强化
              └── 【XXX】代表支持在未来扩展到更多领域或更复杂的交互场景

1. Why（研究动机：要解决什么现实问题）

随着大模型（LLMs）在多种任务上取得突破，如何在更复杂、更高风险的环境中利用多智能体协作以提高决策或推理的准确性，已成为当前的关键挑战。

具体而言，单一LLM 在面对多步推理或需要多个专业知识领域的任务时，往往存在准确性不足和推理过程不透明等问题；

而多智能体在协同解决复杂任务时，则面临信用分配困难（无法确定成功由谁贡献）及训练数据稀缺（难以识别和利用有效的中间推理步骤）等痛点。

鉴于此，迫切需要一种能够自我改进且能在多代理协同中有效进行推理的体系，以应对多学科交叉和高复杂度场景的需求。

2. What（核心发现或论点）

本研究提出了名为 SIRIUS 的自我改进型多智能体协同框架，主张通过“从经验中迭代学习”的思路来解决上述难题。该框架具备以下核心论点：

利用成功案例：将多智能体协作成功的中间推理或讨论过程视为宝贵的“经验轨迹”，即便无法精确定位每个微观决策的贡献，也能从整体上汲取有效的协作模式。
修正失败案例：通过额外的批判性代理（Critic）给出针对失败解答的纠偏反馈，从而在后续生成中修复错误、增强多样化训练样本。
多轮迭代微调：角色化的代理模型在累积了成功与修正后轨迹的基础上进行监督微调，逐步在推理准确度、协作效率等方面获得明显提升。

3. How（研究过程与方法）

3.1 前人研究的局限性

多智能体多步推理：传统多智能体系统常利用手动设计或简单强化学习方法，但缺乏对语言模型中复杂推理链条的深度利用，也难以在不规则的自然语言交互中实现高效的信用归因。
自我改进的困境：现有以“链式思维”或“树式思维”的方法多集中于单模型场景，缺乏多智能体角色分工的互补和纠错机制，因此在面对学科交叉或竞争博弈类任务时力不从心。

3.2 创新方法/视角

多智能体角色划分：为不同领域或功能的代理（如物理学家、数学家、总结者、判定者等）赋予相应的专业提示（Prompt），在合作与竞争任务中均可灵活组合。
经验库与失败增强：收集成功轨迹，保留中间推理；对失败轨迹，通过批判性代理给出纠正意见后再进行重生成、改写，提升样本多样性与可学习价值。
联合监督微调：将不同角色在各自维度上所生成的成功解决方案集中管理，针对每个角色单独微调，使之对其专业子任务更具针对性，并在多轮迭代中整体性能不断提升。

3.3 关键数据支持

跨领域问答：在物理、化学、高阶生物医学问答任务上进行准确率对比，证明本框架在多学科推理中可提高 2.86%~21.88% 的正确率。
竞争性博弈实验：在资源交换、买卖交易和多轮最后通牒等游戏中证明框架能显著提高单一玩家或协作方的收益与胜率。

3.4 可能的反驳及应对

反驳1：多智能体交互语境过于复杂，无法准确提取可用轨迹。
应对：通过额外的判定代理进行打分筛选，同时对失败案例进行多步纠正再利用，保证收集到的有效数据不断累积。
反驳2：对LLM依赖过高，可能导致场景迁移能力弱。
应对：所设计的角色化提示与数据增强机制可在新领域下重现，通过持续迭代来扩充与更新角色知识库。

4. How good（研究的理论贡献和实践意义）

理论贡献
- 在多智能体推理领域提出了“经验轨迹+失败纠偏”的自我改进思路，为多步推理如何在自然语言交互中实现信用归因和有效学习提供了新思路。
- 拓展了单一自我改进方法的局限，通过多角色间的专业分工和协同，丰富了人工智能系统中“群智”形成与演化的理论框架。
实践意义
- 复杂任务适应性：从自然科学问题解答到市场博弈谈判，SIRIUS 均展现出可观的准确度和收益提升，具有良好迁移性。
- 可扩展性：框架以模块化方式引入不同角色代理，后续可以针对更多专门领域（如医疗诊断、法律咨询）进一步落地实践。
- 对AI安全和透明度的启示：多智能体彼此审查与纠错的模式，有助于降低模型盲区和错误决策风险，为复杂决策任务中的 AI 安全提供新思路。

设计思路

1. 作者的元思路

从论文整体结构和写作方式来看，作者不仅关注具体实验如何设计与实施，也十分注重背后的方法论：

多智能体系统中，每一位“智能体”可以被视为某种专业角色（例如物理学家、数学家、判定者、批判者），不同角色各负其责，但在思考和推理时又会互相提供信息或纠正。
作者注重“自我改进”这个核心理念：他们反复强调从成功和失败的轨迹中学习，并使用反馈机制让模型能够“自我修正”并迭代优化。
论文方法论中明显体现出科学思维： 他们先从单智能体无法应对多步推理或多学科任务这一“现象”入手，然后提出假设（多智能体+自我改进或许更好），并通过多领域、多回合的实验验证该假设。

在这背后，可以看到作者强烈的“元认知”倾向：

多轮迭代：作者不断让系统生成、评估、纠错、再生成，体现了“做中学、学中改”的思路。
基于经验库的概念：收集可行经验、不足之处（失败案例），都是为了让系统从历史中获得改进的动因。
角色分工：此举能让不同专业知识点得到对应的聚焦与强化，避免“一锅乱炖”。

这些思维方式背后显露出一种“对复杂系统的自适应优化”的思考模型：在复杂推理中需要多人协作、不断反馈，并借助大模型的生成特性来收集可用数据，进而实现“自我提升”。

2. 作者的主要观察（Observation）

2.1 单智能体的不足

现象：作者注意到，当一个单一的 LLM 面对复杂任务（如需多步推理或跨学科问题）时，常常会出现逻辑不连贯、错误频发、难以有效定位错误成因等问题。
背后观察：在多步思考环节里，一个大模型虽然能进行链式或树式推理，但若缺乏多重专业知识、或者缺乏他人的质疑与纠错，则容易造成盲点与误判。

2.2 多智能体协作的潜力

现象：当多个角色（如物理学家、数学家、总结者）协同工作时，有时会互相提示或发现彼此的错误；在竞争性情境中（如博弈游戏），不同智能体的战略交互也可激发更高水平的策略思考。
背后观察：多智能体之间可以形成互补或博弈，对错误具有一定的“放大镜”效果，让系统更快发现问题或提出修正思路；同时竞争或合作能带来多样化的思路。

2.3 经验库与反馈机制的效果

现象：对于成功解决的轨迹，保留下来当作正面示例能“教”系统如何回答；而失败的案例经由批判性反馈再生后往往能衍生更多种解法。
背后观察：作者发现，单纯只保留“成功轨迹”可能数据量不够，或者难以让系统见识足够多的“错误模式”。故而他们注意到“失败—纠错—重生成”能够有效提高数据多样性与纠正率。

3. 作者的主要假设（Hypothesis）

3.1 多智能体 + 自我改进 > 单智能体

假设内容：与其在一个模型里硬塞所有知识，让它自己从头到尾推理，不如将问题分解给多个专业角色；通过反复纠正与微调，让这些角色的“局部专业性”逐渐提升，从而提升整体解答正确率。
提出原因：过去单智能体无法在高复杂度任务中取得理想表现，作者推测多智能体能够“拼接”彼此的思维，并在失败时通过反馈代理发现问题所在。

3.2 成功与失败轨迹皆可带来增益

假设内容：不只要保留成功案例的“最佳解法”，也要借助对失败案例的分析和修正，让系统见到各种“错误”并能学到纠正之道。
提出原因：这源于对自然语言推理随机性与不确定性的关注；只有包含多种失败修正路径，才能让系统在迭代中获得更全面的知识。

3.3 不同专业角色相互独立微调

假设内容：为每个代理（如物理学家、数学家、批判者、总结者等）分别微调，可以比“把所有数据混在一起”更能凸显专业效果。
提出原因：多智能体之间的分工往往清晰，不同角色注重不同类型的“提示”或“知识库”，因此分开微调可减少信息干扰，最大化各角色的优势。

4. 数据与结论（作者对观察与假设的检验）

4.1 问题求解（如物理、化学、生物医学问答）

数据呈现：论文中的实验显示，使用多角色的 SIRIUS 系统在准确率上比单智能体模型平均提升 2.86%~21.88%，并且随着迭代次数增加，提升更为明显。
结论佐证：说明了“多智能体 + 经验库微调”在多步推理任务中的确能带来改进，验证了作者的核心假设。

4.2 竞争/博弈场景（资源交换、买卖议价、最后通牒等）

数据呈现：实验结果显示，Fine-tuning 后的多智能体在这类“对抗或合作”博弈中能收获更高收益或胜率，并且在不同初始条件下均有不错的泛化能力。
结论佐证：多智能体策略在自我改进过程中逐渐懂得如何做出更有利的谈判或交易决策，这呼应了作者“多轮纠错/学习能带来更佳博弈表现”的假设。

4.3 对失败轨迹的再利用效应

数据呈现：当把失败案例借由批判性代理反馈、再生生成新答案并纳入训练数据后，模型各角色在下一轮迭代的表现往往大幅改进。
结论佐证：证实了“失败也能成为宝贵经验”，尤其在语言模型推理中，一次性的错误若能得到适当的反馈，后续就能弥补盲区、生成更可靠的解法。

总结：从作者思维中可以学到什么
主动观察：作者非常关注多智能体在自然语言环境中协作时出现的“小变化”，并且善于捕捉“为什么有时候交互能够改正错误，有时候则加剧了混乱”的现象。
基于变量变化来确定关键因素：当作者引入新的批判者或判定者角色、或者改变了初始资源/博弈条件时，就能观察到哪些变量对系统性能影响更大，进而推断多智能体协调机制的关键。
大胆假设，小步验证：作者针对“多智能体 + 经验库 + 纠错机制”提出了一整套假设，但他们并没有一次性包打天下，而是将这些环节分拆到各个实验（如不加反馈vs.加反馈、单代理vs.多代理等），从而逐步验证各个组件的增益作用。
迭代改进，不断试错：论文方法的核心就是“尝试—失败—重生成—学习”，这是典型的科学方法论（观察、假设、验证）在复杂 AI 场景中的体现。

数据分析

第一步：收集所需数据

1.1 论文中的主要数据来源

Problem Solving（解题问答）数据
- College Physics 与 College Chemistry
  - 分别来自 MMLU、GPQA、TheoremQA 三个数据集的相关题目（整理成大学物理、大学化学问答）。
  - 论文附录中给出的示例数据划分：
    - 物理：
      - MMLU：训练集 68，测试集 34
      - GPQA：训练集 57，测试集 29
      - TheoremQA：训练集 87，测试集 44
    - 化学：
      - MMLU：训练集 66，测试集 34
      - GPQA：训练集 62，测试集 31
      - TheoremQA：训练集 87，测试集 44
- PubMedQA（医学/生物医学问答）
  - 共有 1000 道公开问题，每个问题都配有 PubMed 文献摘要。
  - 训练集 500，测试集 500。
Actor-Critic（评审纠错）数据
- 主要也是针对 PubMedQA 等开放域问答数据场景，用于“Actor-Agent 生成答案，Critic-Agent 提供反馈，Judgment-Agent 判断正误”的三方交互场合。
Competitive（对抗性）数据
- 由作者自建或改编的多回合谈判与博弈环境（Resource Exchange、Sell&Buy、Multi-turn Ultimatum Game）。
- 每个环境设定了初始资源/金额、轮次限制和胜负评价方式，用以收集对抗性对话数据、达成率、收益等指标。

数量及覆盖面：

问答类：从数百到上千条；
谈判类：基于脚本或模拟平台，每次对局生成一条完整的多回合对话轨迹，论文中也统计了上百次模拟对局结果，收集胜率、谈判价格、资源分配等数据。

1.2 数据的准确性与全面性

准确性：
- 问答数据大多来自已有的公共数据集（MMLU、GPQA 等）或 PubMedQA，都具有相对完善的标注和参考答案。
- 对抗性游戏数据由作者在可控环境下模拟，游戏规则和胜负判定也较为清晰。
全面性：
- 任务类型多元：涵盖了数学/物理/化学推理、医学问答，以及资源交易、谈判博弈等场景。
- 能够验证多智能体在“协作（解题）”和“对抗（谈判）”等不同维度的表现。

第二步：处理与挖掘数据，寻找规律

在论文中，作者并不仅仅拿到数据就直接套用模型，而是先对数据进行清洗、整理，并让多智能体系统在此基础上展开交互，再进行记录和分析。

2.1 数据清洗与结构化

清洗与筛选：
- 对问答数据中可能存在的无效问题或重复项进行去重；
- 在谈判游戏中，如果因输入异常（如对手无效信息）导致对局中断，也要过滤掉这些不完整数据。
结构化：
- 将每个问题（或每场谈判）对应的多轮对话、回答、最终结果都打包成“轨迹”，这些“轨迹”是后续用来训练和评估多智能体行为的核心。
- 在解题任务中，“轨迹”包含：问题文本、物理专家/化学专家输出、数学家计算过程、最终汇总答案等。
- 在谈判任务中，“轨迹”包含：各回合报价、对手响应、是否达成协议、资源分配结果等。

2.2 数据分析与趋势发现

作者在论文中注意到的几大数据规律：

多智能体 vs. 单智能体的正确率对比趋势
- 当数据量足够时，多智能体（带有角色分工）的做题准确率往往高于单智能体，这在 College Physics、Chemistry 以及 PubMedQA 均有体现。
- 随着不断在成功轨迹上进行微调，正确率曲线会进一步攀升。
对抗性谈判中的收益分布
- 通过可视化不同初始资源/角色下的胜率和收益曲线，发现经过多轮优化后（即多回合自我改进训练），某些角色（卖家/玩家 1）能逐渐学会更优的出价策略，从而获取更高利润。

第三步：探索数据维度间的相关性

在多智能体实验中，“角色专长”和“最终正确率/收益” 之间常被视作关键维度。作者重点关注：

角色之间的交互顺序对结果的影响
- 在物理/化学解题中，引入“先由领域专家给出定性分析，再由数学家做推导，最后由总结者给出结论”的固定顺序。
- 观察到：当更换角色顺序或者省略某个角色，系统整体正确率往往会下降，表明“多角色专长+顺序协同”与解题成功率显著正相关。
正确轨迹数量与模型提升关系
- 建立“好轨迹”数量（即成功问题的对话记录）与最终测试集准确率之间的对应表：随着“成功轨迹”数量增加，微调后模型在新题上表现更好。
- 这说明“成功案例数据”维度与“模型性能”维度存在较强正相关。
谈判角色与协议价格/胜率的相关性
- 比如在“Sell&Buy”场景中，作者比较了“卖家由 SIRIuS 优化后模型扮演”与“买家由 SIRIuS 优化后模型扮演”时，最后成交价格的差异。
- 发现如果只微调卖家而不微调买家，卖家更容易得到较高成交价；反之亦然。表明双边都微调时竞争会更加激烈，也更加接近博弈均衡。

类似行星探测的类比：

论文中谈判部分与天文学案例相似之处在于——“通过已知的数据”（谈判报价/接受或拒绝）来推断对方底线（未知），从而调整自己的策略。虽然文中没有直接谈到“恒星亮度”这种天文比喻，但道理相通：从可观测的信息推断隐藏的对手心理或限价。

第四步：建立数学模型

SiriuS 并不是一条固定的方程式，而更像是一个多智能体训练框架。

但它同样有“模型化”的思维：将任务结果（正确或收益）视作奖励信号 ( R(s, a) )，再用带有监督微调的方式来更新策略。

4.1 模型构建思路

状态与动作
- 状态（s）包含当前对话上下文、已有输出；动作（a）则是各角色 Agent 给出的文本响应。
- 将多回合对话记录为 $s_1, a_1, s_2, a_2, \ldots )$ 。
Reward（奖励）
- 在解题场景：如果最终答案正确，给正奖励；错误，给负或零奖励。
- 在谈判场景：根据双方最后达成的结果计算收益，并视作奖励信号。
优化机制
- 成功轨迹收集：若任务成功，就把此完整对话过程当作优质监督样本，微调每个角色的策略；
- 失败案例处理：对失败案例进行“反馈 + 再生成”的补充，形成更多可学习样本。

这类似于“建立函数关系”或“回归出核心方程”的过程：只是此处的方程/模型更偏向于深度学习中“策略网络参数”的更新，而不是简单的线性或二次方程。

4.2 模型验证

准确性检验：
- 例如，在 College Physics/Chemistry 和 PubMedQA 上，逐轮微调后测试准确率显著提升，验证了模型在问答类任务上的有效性。
对抗性结果检验：
- 在 Resource Exchange, Sell&Buy, Multi-turn Ultimatum Game 中，对比微调前后玩家的平均收益、达成率，发现 SIRIuS 模型明显优于基线，验证了在博弈场景的适用性。

不同设置与任务：
在这里插入图片描述

多种场景下的多智能体结构
- 表格把多智能体框架应用的场景分成三种：
  1. 问题求解 (Problem-Solving)
  2. 演员-评论家 (Actor-Critic)
  3. 竞争性任务 (Competitive)
- 每个场景都用一个简图，表示不同智能体之间的交互结构（节点代表智能体，箭头代表信息或决策流）。
对应的任务类型与奖励
- 问题求解场景中，物理学家、数学家和总结者通常在“College-Physics”、“College-Chemistry”或“PubMedQA”上协作求解，奖励是“最终答案是否正确”。
- 演员-评论家场景(Actor-Critic)也用“PubMedQA”做演示，这里有一个“Actor”负责回答，一个“Judgment”负责判定答案对错，“Critic”会给反馈。
- 竞争性场景(Competitive)包括资源交换(Resource Exchange)、买卖(Seller-Buyer)和最后通牒游戏(Ultimatum)，奖励通常是双方的效用函数或收益。

总之，图2想说明作者的多智能体框架不局限于单一问题类型，而是能适用于多种结构、多样任务；同时根据不同任务性质，使用不一样的奖励/目标函数来评估多智能体的表现。

最终，SIRIuS 成功证明了：将多智能体的对话过程作为数据来迭代学习，既能在学术问答中大幅提高正确率，也能在对抗性博弈中获得更优策略。这种“数据 → 归纳 → 建模 → 预测/决策”的思路，正是作者在论文中所践行的科学研究范式。

1. 拆解【解法】

在这里插入图片描述
SIRIUS 的整体训练流程（General training pipeline）

多智能体协作求解
- 左侧的框中有三个“专家”：物理学家(Physicist)、数学家(Mathematician)和总结者(Summarizer)。
- 三位专家各自接收相同的“问题”作为输入，却在不同的专业维度上各自思考，然后输出不同的“部分解答”或“推理内容”；最后由 Summarizer 汇总成最终答案。
经验库 (experience library) 与微调
- 如果多智能体给出的答案是正确的，就把它的“完整对话或推理轨迹”存到“经验库”里，用作后续的微调训练数据，以不断增强模型。
- 如果答案错误，就进入“experience augmentation”流程：先对原来的错误答案进行反馈(Feedback)、然后根据反馈重生成(Regenerate)并重写(Rephrase)，最终把修正后变好的解答同样存入经验库，形成新的训练样本。
迭代升级
- 整个系统会反复执行“回答问题—判断对错—更新/存储轨迹—微调”的循环，实现多智能体在推理能力上的逐步提升。

因此，图示意了一个多智能体如何串行地解决问题，并将正确、错误两类答案的轨迹都纳入到后续的训练中，从而完成自我改进的核心过程。

1.1 技术（公式形式拆解）

从论文的核心思路来看，SiriuS可以被拆解成以下几个主要组成部分，用近似公式表达如下：

$\text{SiriuS} \;=\; \underbrace{\text{MultiAgent}(A_1,A_2,\ldots,A_N)}_{\text{多智能体组织}} \;+\; \underbrace{\text{BootstrappedReasoning}}_{\text{自举式推理}} \;+\; \underbrace{\text{TrajectoryAugmentation}}_{\text{轨迹增补}} \;+\; \underbrace{\text{Reward-basedEvaluation}}_{\text{基于奖励的评价}} ]$

多智能体组织 (MultiAgent)：将大语言模型分成不同角色（物理/化学专家、数学家、最终总结者等），或者在竞争/协商场景下拆分为对手双方。
自举式推理 (BootstrappedReasoning)：在成功轨迹上做监督微调，并对失败轨迹进行反馈重写，形成自我改进。
轨迹增补 (TrajectoryAugmentation)：对错误案例进行补充性反馈，再由原角色“重写”生成新的解法，增加训练数据多样性。
基于奖励的评价 (Reward-basedEvaluation)：根据最终的正确率/收益/对抗结果作为奖励，对多智能体协作或对抗的“全程对话”进行正/负反馈。

1.2 要解决的问题

如何在多角色（或多对手）复杂任务场景下实现“自我改进”
常规多智能体系统往往缺少对“失败经验”的深度利用，只是在 Prompt 级别协同，无法持续提升。SiriuS 就是为了解决这个痛点：让多智能体能迭代学习成功/失败案例，从而在日后新任务中表现更好。

1.3 与同类算法/框架的主要区别

对“失败轨迹”的主动修正
- 传统多智能体系统更多依赖“成功经验”或人类示例；SiriuS 专门对失败案例提供反馈并让相应角色重写，最后将修正后的对话纳入训练。
多种场景统一框架
- SiriuS 既能用于解题（物理、化学、PubMedQA），也能用于对抗性场景（谈判、博弈）；而许多前人方法（如单场景自我纠错）侧重问答或单人推理。
奖励信号只需来自最终结果
- 不要求对中间每一步做精细标注，只要有“对/错”或“收益高/收益低”就能反传给多智能体，这降低了人工标注成本。

2. 把整个解法拆解为更具体的子解法

这里给出一个更细的拆解思路：

$\text{SiriuS} \;=\; \text{子解法1} + \text{子解法2} + \ldots + \text{子解法n}$

结合论文，可归纳为 3 个主要子解法（也可视作 3 个关键模块），分别由相应“特征”来触发。

2.1 子解法1：多智能体角色分工

为什么要有此子解法？（特征）
- 任务跨专业（例如物理+数学），或多回合对抗（谈判中卖家 vs. 买家）——需要把不同专业、不同利益点的功能拆开。
之所以用多智能体子解法，是因为
- 在单个大模型无法兼顾所有专业、或单回合对抗信息不足的特征下，需要多个 Agent 协同或互相博弈。

举个例子

在“College Physics”中，物理专家 + 数学专家 + 总结者分工：

物理专家：只讲物理思路，不深入方程推导。
数学专家：基于物理专家的描述进行方程解算。
总结专家：综合前两者输出并得出最终答案。

2.2 子解法2：成功轨迹收集 + 监督微调

为什么要有此子解法？（特征）
- 多智能体在交互完成后，会得到一个正确或错误的结果；当结果正确时，能直接把整条对话（称之为“成功轨迹”）保存，用来做监督学习（SFT）。
之所以用成功轨迹微调子解法，是因为
- “成功案例”体现了如何正确分工与合作的特征，保留下来有助于在后续任务中模仿并复用成功模式。

举个例子

当多智能体协作解出一道化学计算题，则：

将完整对话（化学专家解释、数学专家方程、总结者收敛答案）的文本作为“金样本”，
直接微调化学专家、数学专家、总结者三者各自的模型参数，
使它们以后更倾向于再现类似正确流程。

2.3 子解法3：失败轨迹增补 + 重写训练

为什么要有此子解法？（特征）
- 对于失败案例，如果不加改进就直接丢弃，效率极低；而且大量“易混淆”问题恰恰分布在失败轨迹里。
之所以用失败重写子解法，是因为
- 多智能体在对话中显现出错误，但可能只差一点信息或小的纠正就能变成正确答案；这说明失败轨迹暗含了可提升的特征。
具体做法
1. 外部 Critic 或额外 Agent 给出错误原因或提示；
2. 原负责角色重新生成解答；
3. 如果重新生成后可行，就将新对话一起纳入训练集；若仍然错误，可能再继续二次迭代，直到一定轮次上限。

举个例子

在谈判博弈中，卖家 A 可能错误地出价过高，导致对方拒绝而收益极低。这种失败：

Critic 提示“要让对方接受，需要合理区间报价”；
卖家 A 重新报价并生成对话；
若新的报价达成交易，就把该对话作为“修正轨迹”加入数据，用来训练卖家 A 的策略。

3. 这些子解法是什么样的逻辑链？（链条 or 网络）

结合上面的 3 个子解法，可以用 决策树 + 时间顺序 来展现“子解法之间的依赖关系”：

        ┌──→【子解法2：成功轨迹收集&微调】
【任务开始】→ 多智能体合作 → 判定结果   ──┼──→【子解法3：失败轨迹增补&重写】
        └──→【其他额外处理(重复回合)】

子解法1：多智能体角色分工是先天存在的结构（就是在“任务开始”时，就分好了物理专家、数学专家等各角色）。
子解法2与子解法3是并行分支：最终结果若正确 → 进入“成功轨迹收集微调”流程；结果若错误 → 进入“失败轨迹增补&重写”流程。
周而复始，多回合累计后，整个系统就完成一次自举式的迭代学习。

因此，该逻辑更像是一条有分支的链（或一个小决策树），不断迭代：

分角色协同或对抗；
成功则打包进训练；
失败则做反馈重写，再行训练。

4. 分析是否有隐性方法，以及潜在的隐性特征

4.1 是否存在隐性方法

对比论文中的表述，可以发现有一个**“关键但不显式写在公式里”**的隐性方法：

隐性方法：在“失败重写”过程中，Critic/Feedback Agent 可能利用外部知识（或真值）进行针对性纠正。

论文中虽然提到要“对错误案例进行反馈”，但是具体如何给反馈常是一个隐性步骤。
作者并没有给出非常详细的“Critic 如何理解并指出错误”的策略，比如它如何知道错在哪里、该给出哪种提示，这往往依赖额外的判断 Agent 或外部标注。

因此我们可以把它定义成一个**“Critic 反馈子方法”**，作为一个关键方法：

关键方法：Critic 反馈

隐性特征：Critic 要具备一定的诊断能力，不但能看出错误，还能给出可操作的修改建议。
在子解法3 中起核心作用：没有 Critic 的精确反馈，错误案例可能很难重新生成正确答案。

4.2 是否存在隐性特征

隐性中间步骤特征：论文中谈到对错误对话的“修改/重写”，并不是一行命令就搞定，而通常是多行反馈 + 分步再生成。这一段过程是一个连续、细碎的过程，作者在附录里可能给了示例，但没有把它当做一个单独的“方法”来命名。
这可视为一个专门的关键步骤：
- 失败案例收集 → Critic 给多条反馈 → 角色逐条吸收反馈 → 生成中间回答 → 判断是否修正成功
- 其中任何一步都不明确，就导致最终重写失败。

总结：论文在“失败轨迹增补”阶段，有一系列多行、多步的“隐性反馈子流程”，可被视为隐性关键方法。

5. 方法可能存在哪些潜在局限性

对“Critic/反馈Agent”或“真值”的依赖
- 如果缺乏可靠的评估或外部答案，Critic 给出的反馈可能不准确；没有良好反馈，重写就无从谈起。
多轮重写的计算/时间成本
- 在大规模任务下，每次错误都要重生+反馈，成本会累积。虽然理论上越多重写越能覆盖错误，但实际应用可能受到时长或算力限制。
在对抗性博弈中，收敛速度可能较慢
- 谈判或博弈需要多回合自我改进才能找到稳定策略。若环境复杂（初始资源/对手策略多变），需要的迭代次数就更多，调参也更难。
隐性步骤“Critic 如何反馈”无法自动学到
- 作者大多通过“外部Agent”或“在有正确答案时”来给反馈，并没解决无外部标注下如何自动生成优质纠错提示的问题。

总结

解法拆解：SiriuS = 「多智能体分工 + 成功轨迹微调 + 失败轨迹重写 + 奖励函数」。
逻辑链结构：子解法1 是基础角色分工结构，子解法2/3 根据结果成功或失败而分支，构成一条可重复的决策链。
隐性方法：失败重写过程中对错误原因的精确诊断和反馈是关键但未显式细化的方法步骤。
潜在局限：对外部评估或正确答案的依赖，迭代成本高，Critic 反馈的自动化程度不够。

提问

0. reward函数是针对整个task的，还是每个agent的response都要判断下？

在 SIRIUS 这个框架里，整体的思想是最终以“整条多轮交互是否达成了正确（或成功）的结果”来给奖励，而非针对每个中间步骤或单个 Agent 的回复分别计算一个独立的奖励。也就是说，奖励（reward）主要是面向整个 task 的最终输出。

为什么把奖励设计成“面向最终结果”

多轮对话/推理才是真实场景：多 Agent 协作往往是一系列的交互，有可能在前面的回合中出现局部信息或逻辑分歧，但只要最后能达成正确的结论，通常就视作成功。这种场景下，若只针对个别步骤的“看似对/错”做奖励，可能会导致不恰当的奖励分配，尤其当一个 Agent 暂时做出“部分错误”的步骤反而激发了另一个 Agent 的纠正，最后整体仍然走向正确答案。
简化训练信号：在语言模型做多轮推理时，想要对每一步（Token/回复级别）打分不仅很难，而且会引入大量人工评估或复杂的自动打分逻辑。许多多 Agent 协同的工作，往往使用“成功 / 失败（或好 / 坏）”二元信号，来避免微观粒度打分的麻烦，也能避免“信用分配（Credit Assignment）”过于琐碎。

具体在 SIRIUS 中怎么用最终奖励

整体评估：当一组 Agent（例如物理专家、数学专家、总结专家）对某道题进行求解，若他们产出的最终答案是正确的，就认为这条“交互轨迹”是成功的；否则就是不成功。
收集成功轨迹（experience library）：将这条多轮对话/推理的所有中间内容（物理解释、数学推理、最后汇总等）都存入“成功轨迹库”。这并不是说每一步都给数值奖励，而是把整条对话都标注为“这是一条成功示例”。
针对失败轨迹的“增强”：如果最后答案是错误的，就先由“额外的 Agent”（或带有正确答案的外部过程）进行诊断和反馈，然后再让原先生成错误答案的 Agent 参考反馈，重新生成一次、并把纠正后的版本也记录下来。这样就把本来错误的那条轨迹，转化为一个经过纠正后的示例。
监督微调：最后用这些“成功（或经反馈变得成功）的完整多轮对话”来监督微调各个 Agent，使得它们下次在面对类似问题时，更容易走向正确的合作分工与推理步骤。

多 Agent 间的“信用分配”如何实现

在没有细粒度（步骤级别）奖励的前提下，就存在典型的“多 Agent 贡献难以衡量”的问题。SIRIUS 里采用了“只要最终结果是对的，就把整条对话都当成正样本”的方式，让各个参与的 Agent 都能在监督微调时受益。
如果我们要进一步精细地控制或区分是哪一步导致了成功或失败，也可以在后续做一些细粒度的标注或打分（例如引入 Critic Agent 对每一步的质量进行打分），不过这会增加实现成本和复杂度。

总结：

SIRIUS 里的 Reward 是针对整条任务最终是否成功，然后通过对整段交互的保留或再生来做监督微调，并不在每个 Agent 的单次回复上都额外做独立的奖励判断。
这种做法的好处是实现简单，也符合很多协作式任务的场景；但缺点是无法做到特别细的“逐步打分”，需要依赖数据扩充与增广（augmentation）来更好地覆盖不同失败模式、并对整个多轮协同的成功示例进行监督学习。

1. 关于多智能体

Q1：如果论文提到的多智能体系统在物理和化学问题上都能起到正面作用，那为什么还需要拆分成物理专家、数学专家、总结专家这三个角色，而不是用一个大模型一口气完成所有步骤？
A1：论文作者观察到“学科专长”往往在解题中会彼此依赖。物理专家在概念解释上更有深度，但可能不擅长准确运算；数学专家更擅长公式推导，却不一定有完整的物理情景；总结专家擅长语言整合与最后的答案表达。将这些角色拆开能让不同模型在最适合的任务上发挥专长，而不仅仅依赖单一模型“一肩挑”。

2. 关于失败轨迹

Q2：论文提出了用反馈和重写的方式处理错误解答，但如果一个解题过程在物理分析阶段就已经埋下错误根源，后续只做数学修正有什么意义？
A2：作者的补救机制不仅针对最后一环，也会审视整个中间轨迹。如果“物理专家”的输出是根源，那么由 Critic Agent 或额外反馈信息（对照正确解）来提示，物理专家会重新生成更正后的推理，然后数学家再做新一轮计算。因为反馈并非只给“数学家”，也包括给出错的“物理专家”。

3. 关于谈判对抗

Q3：在多回合谈判中，如果对手用了一种完全随机的策略，SiriuS 是否也能通过持续收集失败轨迹而提升胜率？还是说随机对手会让系统无法学习？
A3：随机策略确实会降低可学习的稳定性。但因为 SiriuS 强调在失败轨迹中对具体错误决策进行重写和再训练，系统至少能学到“在各种报价或条件下，对手如何回应”的大体分布。即使对手随机，SiriuS 也会反复试探最优报价区间来提高成功率。但纯随机的对手使得收敛速度变慢，整体效果可能不及在有规律的对手上。

4. 关于数据覆盖

Q4：论文在收集多学科问答数据时，怎样防止一个学科过于“简单”而另一个学科高度“复杂”的情况，让多智能体训练失衡？
A4：作者将数据分为多个子集（物理、化学、PubMedQA 等），并按照一定比例平均分配到训练阶段。在对抗性任务方面，也设置了多种初始资源与回合限制来保证多样性，尽量避免某一场景出现极端简单或极端复杂的失衡。

5. 关于奖励函数

Q5：SiriuS 在科学问答或谈判时都使用“基于最终结果”的奖励函数。如果有中间步骤出现严重逻辑冲突，但最后意外碰巧答对了，会不会导致错误的中间步骤也一起被“奖励”？
A5：理论上有这种风险。因为作者并没有在中间步骤对对错进行细粒度监督。不过作者在失败轨迹增补时，会对逻辑冲突的案例进行重点反馈，从而减少“碰运气”现象反复出现。长期来看，错误中间步骤若频繁导致失败，也将被系统纠偏，净效应仍是朝正确方向收敛。

6. 关于增补机制的有效性

Q6：为什么作者选择对失败案例“加反馈重写”而不是简单地把失败案例扔掉？在多数机器学习实践中，难样本常常会导致过拟合或干扰。
A6：论文强调失败案例往往是“模型不足”的最佳暴露点，若能提供有效反馈并重写，就能将“最容易出错的地方”变成“改进的关键增量”。丢弃会让模型永远不学习那些棘手情形。这种思路与“难例挖掘”概念相似，只是这里采用了人工或外部 Critic Agent 的指导，尽量减少过拟合的干扰。

7. 关于多语言模型

Q7：论文中大量实验用的都是英文数据（比如 PubMedQA，MMLU 题目等），如果要推广到多语种场景，如同时处理中文、英文物理题，该框架需要做哪些额外改动？
A7：作者在论文中并未详细讨论多语种问题。但从框架上看，SiriuS 重在“奖励+增补”训练思路，与语言本身强相关的只有所用大语言模型。若想多语种，就需要相应多语言模型作为基础，并在多语环境下收集轨迹数据做微调。如果所有文本都进入同一个数据管线，则子角色可在不同语言之间切换，但需保持其 Prompt 设计与指令一致性。

8. 关于拓展场景

Q8：能否把 SiriuS 应用于代码审查（Review）和自动修复，类似 GitHub Copilot ？还是说它更适合纯自然语言任务？
A8：从原理上讲，只要可以定义一个“成功”或“正确性”指标，并且可记录中间协作的“对话”或“思路过程”，就能把 SiriuS 用来做自我改进。代码审查/修复里，如果有明确的单元测试或编译结果当作奖励，那也可视作一个对抗/协作的过程。但因为代码开发中的错误类型多样，Critic Agent 需要较强的编译/语义分析能力才能给出有效反馈，这一点并不在论文的直接范围内。

9. 关于无监督场景

Q9：如果某些题目没有标准答案，比如开放性问答或创作任务，SiriuS 该如何提供“正确”或“失败”的判断？
A9：论文主要基于有明确结果判断的任务（对错或收益高低）。在纯创意任务里，需要替换“对/错”评价为更复杂的评分机制，也可能依赖人类打分或 RLHF（Human Feedback）。作者并没有深入无监督或纯人类审美打分的情形，因此在此类高主观度任务中，SiriuS 的思路需要另行扩展或改造。

10. 关于Critic Agent能力

Q10：论文中并未细化 Critic Agent 的内在算法，如何保证这个 Critic Agent 不会本身犯错，导致给出的反馈误导多智能体？
A10：Critic Agent 大多依赖“对照正确答案”或“可计算的指标”（如谈判收益）来判断。若 Critic 本身缺乏足够权威的参照，就会存在谬误风险。论文中默认 Critic 可以利用外部真值或实验室标注数据，但没能提供完全自动化的“Critic 纠错机制”。作者也承认这是个需要继续研究的方向。

11. 关于对比实验

Q11：为什么在对比基线时，作者主要选择 Single-Agent、STaR、COMM、TextGrad，而不选用其他多智能体或自我改进方法？
A11：这几种方法代表了不同策略：

Single-Agent：单大语言模型无合作。
STaR：自我教导强化推理。
COMM：多智能体协同但不做微调。
TextGrad：利用语言反馈做梯度优化。
论文想覆盖从单模型到多模型协作，以及从不训练到训练的多种典型做法，而不是面面俱到测所有可能方法。

12. 关于监督微调成本

Q12：论文反复提到对成功案例和增补后的错误案例进行监督微调，但考虑到 GPT-4 级别大模型的微调通常非常昂贵，作者是否提及了成本控制策略？
A12：作者在论文里用的是“gpt-3.5-turbo-0125”和“gpt-4o-mini”之类的可微调版本，还在实验规模上做一定限制，以便控制实验花费。他们也建议把微调频次或数据量做合理裁剪，或采用增量微调的方法，但尚未给出大规模工业级应用的具体成本模型。

13. 关于可扩展性

Q13：SiriuS 的成功轨迹和失败轨迹都会越积越多，是否存在数据量暴涨导致训练速度越来越慢的问题？
A13：如果持续无限制地将所有轨迹加入训练集，确实会出现数据膨胀。作者在附录里也提到可以设定一个阈值，比如只保留最具代表性或最新的失败/成功样本，这样能减少无效重复数据。同样也能考虑分批训练、周期性刷新模型等方式来控制训练规模。

14. 关于信用分配

Q14：在多智能体场景下，每个 Agent 的输出都有可能影响最终结果。假如三名专家的对话走到最后答案错误，该如何分配责任来针对性地更新各自 Agent？
A14：论文中的解决方案是“全部轨迹打包一起做监督微调”，并没有明确区分哪位 Agent 更应背锅。换言之，它是“所有人一起学”，而不是精细到单独给“物理专家 80%责任、数学专家 20%”这种权重。虽然不够细粒度，但实践显示在语言对话系统中仍然能逐步提升整体效果。

15. 关于对抗场景的衡量指标

Q15：谈判/博弈中，有时玩家想要的不是单纯的“收益最大”，也有可能追求某种公平或声誉。SiriuS 的奖励函数可以定制成这种多维目标吗？
A15：是的，只要能把多维目标折合成一个或多个可度量的指标，都可融入 SiriuS 的奖励体系。论文中主要以收益或接受率作为指标，但原则上，可设计“声誉分”或“公平度”并加权。如果评价越复杂，就需要更复杂的 Critic 反馈，SiriuS 框架本身是兼容的。

16. 关于现实应用

Q16：在真实商业谈判中，谈判失败后很少能获得像论文里那样精确的“对错”或“收益”数据，系统如何通过失败来学习？
A16：作者承认现实应用可能不具备明确数据标签，但如果有记录谈判过程和最终结果（例如“签约价是多少，是否谈崩”），也能近似当作收益或损失来做强化信号。当然信息可能更嘈杂，比如双方有隐藏动机或长远策略。要实用化，需进一步完善对不确定性的建模。

17. 关于多次反馈

Q17：针对一个失败案例，如果多次重写仍然失败，是不是会陷入“无休止的循环”，无法生成正确答案？
A17：论文中通常设定失败重写的“最大次数”，比如最多给几次反馈。如果依然错误，就判定该问题在当前模型下仍无解，留待后续大规模训练或更高版本模型来解决。这样可避免死循环，也能让系统把时间资源投入到更多可纠正的失败案例里。

18. 关于隐性方法

Q18：SiriuS 强调“Critic Agent 给反馈”，但并没有写出具体怎样生成“提示”。是否说明这其实包含一个隐性的方法？
A18：是的，Critic Agent 的“找错误点+给定可操作的修改建议”本身就需要较强的推理能力。在论文中，这部分更多以“额外模型”或“人工”来实现，作者尚未提供详细算法。换言之，这是一个较大的黑箱或隐性环节：只有做好 Critic 反馈的高质量生成，才能保障失败重写的成功率。

19. 关于安全性

Q19：如果多智能体在谈判场景中学到某些不道德或不合规策略（如虚假陈述、恶意谎报），论文是否讨论过如何防范？
A19：作者并没有专门讨论不道德策略，但在多智能体安全中已有相关研究（如辩论式审核、审计机制）。SiriuS 主要关注模型的学习效率与准确度提升，尚未覆盖道德或合规策略过滤。若要安全应用，需要在奖励或反馈机制中加入合规审查。

20. 关于未来展望

Q20：作者是否给出过下一个阶段提升 SiriuS 的设想，比如把链式思维(Tree of Thoughts)等更深层次的推理结构结合进来？
A20：论文中多次提及到“进一步扩展多智能体的自举式推理”，可能包括树状搜索、层级化角色结构等，但并未给出详细实施方案。作者想延伸的方向包括：