REACT论文总结

图1展示了四种提示方法(prompting methods)在解决不同问题时的比较。这些提示方法分别是(a)标准(Standard)、(b)链式思考(Chain-of-thought, CoT, ReasonOnly)、(c)仅行动(Act-only),和(d)ReAct(Reason+Act),用于解决HotpotQA(Yang et al., 2018)问题和AlfWorld(Shridhar et al., 2020b)游戏中的任务。在这两个领域中,图1省略了提示中的上下文示例,仅展示了由模型(Act, Thought)和环境(Obs)生成的任务解决轨迹。

ReAct的理念

理念:扩大了智能体的行动空间到 A=A∪L,其中 L 是语言空间。

  • 行动空间 A:传统上,智能体的行动空间仅包括直接影响环境的物理行动。
  • 语言空间 L:ReAct方法引入了一个新的空间,智能体可以在这个空间内进行语言推理和生成想法。

语言空间中的行动:

语言空间L中的一个行动:称为想法或推理轨迹,它不会影响外部环境,因此不会产生观测反馈。

  • 想法:智能体生成的语言推理,用于处理当前上下文信息。
  • 推理轨迹:通过推理生成的逻辑链条,有助于任务解决。

想法的作用:

作用:通过对当前上下文 ct 进行推理来组合有用的信息,并更新上下文 ct+1=(ct,at) 以支持未来的推理或行动。

  • 更新上下文:通过生成的语言推理或想法,智能体可以更新自己的内部状态,为后续的行动提供支持。

具体例子

  1. 分解任务目标并创建行动计划

    • 示例:智能体需要完成一个复杂任务,比如做饭。初始目标是“做一顿晚餐”。智能体可以生成一个语言推理:“首先,我需要准备食材,然后我需要加热锅,最后我需要煮菜”。这种推理不会直接影响环境,但会更新上下文,帮助智能体规划接下来的行动。
  2. 注入常识知识

    • 示例:在机器人导航任务中,智能体需要从起点到达终点。智能体可以生成一个语言推理:“一般来说,走直线比绕道更快”,这种常识知识帮助智能体选择更优路径。
  3. 从观测中提取重要部分

    • 示例:在图像识别任务中,智能体观测到一张图像,并生成推理:“这张图像的左上角有一个红色的标志,这可能是我们要找的目标”。这种推理提取了重要信息,更新了上下文,帮助智能体进一步处理图像。
  4. 追踪进度和转换行动计划

    • 示例:智能体在一个长期任务中,生成推理:“我们已经完成了第一部分的任务,现在应该进入第二部分”。这种推理帮助智能体追踪进度并调整行动计划。
  5. 处理异常和调整行动计划

    • 示例:在完成任务过程中,智能体发现一个异常情况,比如“预期的材料不在预定位置”。智能体生成推理:“我们需要重新检查仓库,或者联系供应商获取材料”,并据此调整行动计划。 

结合内部和外部知识

我们观察到ReAct所展示的问题解决过程更为基于事实和基础,而CoT(链式思考)在构建推理结构方面更为准确,但容易遭受虚构的事实或思考的影响。因此,我们提出将ReAct和CoT-SC(链式思考的自洽性基线)结合起来,并让模型基于以下启发式规则来决定何时切换到另一种方法:

  • ReAct → CoT-SC:当ReAct在给定的步骤内无法返回答案时,退回到CoT-SC。我们分别为HotpotQA和FEVER设置了7步和5步,因为我们发现更多的步骤不会改善ReAct的性能。
  • CoT-SC → ReAct:当n个CoT-SC样本中的多数答案出现次数少于n/2次(即内部知识可能无法自信地支持任务)时,退回到ReAct。

ReAct与CoT的对比结果分析

  • 虚构是CoT的一个严重问题,导致在成功模式下CoT的假阳性率远高于ReAct(14% vs. 6%),并且构成了其主要失败模式(56%)。相反,由于能够访问外部知识库,ReAct的问题解决轨迹更加基于事实、由事实驱动且值得信赖。
  • 虽然将推理、行动和观察步骤交织在一起提高了ReAct的可靠性和可信度,但这种结构约束也减少了其在制定推理步骤时的灵活性,导致推理错误率高于CoT。我们注意到ReAct中存在一个特定的频繁错误模式,即模型重复生成之前的思考和行动,我们将其归类为“推理错误”,因为模型未能推理出适当的下一步行动并跳出循环。
  • 对于ReAct来说,通过搜索成功检索到有用的知识至关重要。占错误案例23%的非信息性搜索会破坏模型的推理,并使其难以恢复和重新组织思路。这或许是事实性与灵活性之间的预期权衡,这促使我们提出了结合两种方法的策略。
  • 24
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值