REACT论文总结

XTR01

已于 2024-05-31 19:39:41 修改

阅读量710

点赞数 24

文章标签： prompt

于 2024-05-31 19:38:13 首次发布

本文链接：https://blog.csdn.net/XTR01/article/details/139356978

版权

图1展示了四种提示方法（prompting methods）在解决不同问题时的比较。这些提示方法分别是（a）标准（Standard）、（b）链式思考（Chain-of-thought, CoT, ReasonOnly）、（c）仅行动（Act-only），和（d）ReAct（Reason+Act），用于解决HotpotQA（Yang et al., 2018）问题和AlfWorld（Shridhar et al., 2020b）游戏中的任务。在这两个领域中，图1省略了提示中的上下文示例，仅展示了由模型（Act, Thought）和环境（Obs）生成的任务解决轨迹。

ReAct的理念

理念：扩大了智能体的行动空间到 A=A∪L，其中 L 是语言空间。

行动空间 A：传统上，智能体的行动空间仅包括直接影响环境的物理行动。
语言空间 L：ReAct方法引入了一个新的空间，智能体可以在这个空间内进行语言推理和生成想法。

语言空间中的行动：

语言空间L中的一个行动：称为想法或推理轨迹，它不会影响外部环境，因此不会产生观测反馈。

想法：智能体生成的语言推理，用于处理当前上下文信息。
推理轨迹：通过推理生成的逻辑链条，有助于任务解决。

想法的作用：

作用：通过对当前上下文 ct 进行推理来组合有用的信息，并更新上下文 ct+1=(ct,at) 以支持未来的推理或行动。

更新上下文：通过生成的语言推理或想法，智能体可以更新自己的内部状态，为后续的行动提供支持。

具体例子

分解任务目标并创建行动计划：
- 示例：智能体需要完成一个复杂任务，比如做饭。初始目标是“做一顿晚餐”。智能体可以生成一个语言推理：“首先，我需要准备食材，然后我需要加热锅，最后我需要煮菜”。这种推理不会直接影响环境，但会更新上下文，帮助智能体规划接下来的行动。
注入常识知识：
- 示例：在机器人导航任务中，智能体需要从起点到达终点。智能体可以生成一个语言推理：“一般来说，走直线比绕道更快”，这种常识知识帮助智能体选择更优路径。
从观测中提取重要部分：
- 示例：在图像识别任务中，智能体观测到一张图像，并生成推理：“这张图像的左上角有一个红色的标志，这可能是我们要找的目标”。这种推理提取了重要信息，更新了上下文，帮助智能体进一步处理图像。
追踪进度和转换行动计划：
- 示例：智能体在一个长期任务中，生成推理：“我们已经完成了第一部分的任务，现在应该进入第二部分”。这种推理帮助智能体追踪进度并调整行动计划。
处理异常和调整行动计划：
- 示例：在完成任务过程中，智能体发现一个异常情况，比如“预期的材料不在预定位置”。智能体生成推理：“我们需要重新检查仓库，或者联系供应商获取材料”，并据此调整行动计划。

结合内部和外部知识

我们观察到ReAct所展示的问题解决过程更为基于事实和基础，而CoT（链式思考）在构建推理结构方面更为准确，但容易遭受虚构的事实或思考的影响。因此，我们提出将ReAct和CoT-SC（链式思考的自洽性基线）结合起来，并让模型基于以下启发式规则来决定何时切换到另一种方法：

ReAct → CoT-SC：当ReAct在给定的步骤内无法返回答案时，退回到CoT-SC。我们分别为HotpotQA和FEVER设置了7步和5步，因为我们发现更多的步骤不会改善ReAct的性能。
CoT-SC → ReAct：当n个CoT-SC样本中的多数答案出现次数少于n/2次（即内部知识可能无法自信地支持任务）时，退回到ReAct。

ReAct与CoT的对比结果分析

虚构是CoT的一个严重问题，导致在成功模式下CoT的假阳性率远高于ReAct（14% vs. 6%），并且构成了其主要失败模式（56%）。相反，由于能够访问外部知识库，ReAct的问题解决轨迹更加基于事实、由事实驱动且值得信赖。
虽然将推理、行动和观察步骤交织在一起提高了ReAct的可靠性和可信度，但这种结构约束也减少了其在制定推理步骤时的灵活性，导致推理错误率高于CoT。我们注意到ReAct中存在一个特定的频繁错误模式，即模型重复生成之前的思考和行动，我们将其归类为“推理错误”，因为模型未能推理出适当的下一步行动并跳出循环。
对于ReAct来说，通过搜索成功检索到有用的知识至关重要。占错误案例23%的非信息性搜索会破坏模型的推理，并使其难以恢复和重新组织思路。这或许是事实性与灵活性之间的预期权衡，这促使我们提出了结合两种方法的策略。

XTR01

关注

24
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
REACT论文总结

图1展示了四种提示方法（prompting methods）在解决不同问题时的比较。这些提示方法分别是（a）标准（Standard）、（b）链式思考（Chain-of-thought, CoT, ReasonOnly）、（c）仅行动（Act-only），和（d）ReAct（Reason+Act），用于解决HotpotQA（Yang et al., 2018）问题和AlfWorld（Shridhar et al., 2020b）游戏中的任务。
复制链接

扫一扫