必看！8种Self-Reflection策略，提升Agent97%

最新推荐文章于 2025-04-18 17:27:49 发布

程序员笑武

最新推荐文章于 2025-04-18 17:27:49 发布

阅读量1.2k

点赞数 19

文章标签：搜索引擎 llama ocr 人工智能大数据

本文链接：https://blog.csdn.net/m0_59164304/article/details/144356394

版权

为什么要让Agent学会反思

我们可以通过回答以下3个子问题，来理解上面这个问题。

第一、为什么要让LLM学会反思？

众所周知，无论用多大规模的LLM，都无法消除幻觉。
大量研究证明，从人类思考的模式中得到启发，引入Cot(思维链)提示，在各种问题解决任务中显着提高了 LLM 性能。但是，仍然经常会因逻辑错误、数学错误、幻觉等原因而出现错误。
因此，在思维链中加入人类的反思模式，即带有自我反思（Self-Reflection）能力的Cot,能够识别错误，解释这些错误的原因，并生成建议，以避免将来犯类似类型的错误。

第二、为什么要给Agent配置自我反思的Cot?

Agent最突出的表现是，在解决多步问题方面非常厉害。例如：网络浏览器、搜索引擎、代码解释器等。都需要多次请求LLM完成上述任务，这就是Agent的强项
没有自我反思能力的Agent,推理时会出错，输出幻觉，并陷入无用的循环。
自我反思型Agent,恰好能借助Cot、外部知识、以及从反馈中学习的能力，提高Agent的准确率

第三、有人会问什么是反馈学习？

反馈学习包含3个部分：

反馈的来源：包括内部反馈和外部反馈。即LLM本身的先验知识，和外部数据库中存储的知识
反馈的类型：包括标量值和自然语言。例如：问珠穆朗玛峰的高度，就是一个标量。问珠穆朗玛峰的地理位置，就是一个自然语言的描述。
反馈学习的策略：反馈学习的策略可以在模型训练时、输出生成时或输出生成后出现。在这三个阶段中的每一个阶段，都有各种可用的技术（例如，模型微调、输出重新排序和自我纠正）

模型微调、输出重新排序，大家都不陌生。自我纠正就是让Agent在信息交换的过程中，逐步纠正幻觉的输出。目前自我纠正的方法包括3种类型：

迭代细化
多模型辩论
自我反省

前两个侧重点在模型本身，自我反省则强调的是知识的纠偏，也是我们今天要重点介绍的内容。

让Agent通过反思纠偏，就能极大的缓解Agent的幻觉问题，提高准确率。

Self-Reflection（自我反思）

Agent中的自我反省是一种元认知策略,使用自我反省的 LLM 能够识别并纠正其错误,即使LLM无法识别Cot中的推理错误，借助外部反馈的知识仍然能纠正错误。

自我反思流程图和算法

8种Self-Reflection的策略

Retry : 被告知回答错误，并简单地再次尝试。
Keywords : 每种错误类型的一组关键字。
Advice: 一组用于改进的一般建议。
Explanation :对其出错原因的解释。
Instructions: 用于解决问题的指令的有序列表。
Solution: 针对问题的逐步解决方案。
Composite : 混合所有六种类型的自我反思，反思时不保留中间答案。
Unredacted: 混合所有六种类型，自我反思时保留各自的答案作为中间结果。

看一下这八种策略的效果其中，Baseline是没有自我反思的Agent,作为对照。

Unredacted策略达到了97%的准确率。说明，当 LLM 在自我反思中获得正确答案并保留为中间推理结果时，它能以较高的准确率回答问题。

还测试了不同LLM下，8种策略的不同表现。很明显，Unredacted策略依然表现最好。

最后，测试了不同考试类型（不同程度的分析推理的考试），来观测一下自我反思带来的改进情况。其中，LSAT-AR（分析推理）改进最大，SAT（英语考试）改进最小。说明，越是强调分析推理的问题，自我反思(Self-Reflection)的改进效果越好。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述