必看！8种Self-Reflection策略，提升Agent97%

最新推荐文章于 2025-04-18 17:27:49 发布

大模型微调部署

最新推荐文章于 2025-04-18 17:27:49 发布

阅读量949

点赞数 21

文章标签：人工智能 AI大模型大模型 LLM Agent ai agi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/star_nwe/article/details/144290773

版权

一、为什么要让Agent学会反思

我们可以通过回答以下3个子问题，来理解上面这个问题。

第一、为什么要让LLM学会反思？

众所周知，无论用多大规模的LLM，都无法消除幻觉。
大量研究证明，从人类思考的模式中得到启发，引入Cot(思维链)提示，在各种问题解决任务中显着提高了 LLM 性能。但是，仍然经常会因逻辑错误、数学错误、幻觉等原因而出现错误。
因此，在思维链中加入人类的反思模式，即带有自我反思（Self-Reflection）能力的Cot,能够识别错误，解释这些错误的原因，并生成建议，以避免将来犯类似类型的错误。

第二、为什么要给Agent配置自我反思的Cot?

Agent最突出的表现是，在解决多步问题方面非常厉害。例如：网络浏览器、搜索引擎、代码解释器等。都需要多次请求LLM完成上述任务，这就是Agent的强项
没有自我反思能力的Agent,推理时会出错，输出幻觉，并陷入无用的循环。
自我反思型Agent,恰好能借助Cot、外部知识、以及从反馈中学习的能力，提高Agent的准确率

第三、有人会问什么是反馈学习？

反馈学习包含3个部分：

反馈的来源：包括内部反馈和外部反馈。即LLM本身的先验知识，和外部数据库中存储的知识
反馈的类型：包括标量值和自然语言。例如：问珠穆朗玛峰的高度，就是一个标量。问珠穆朗玛峰的地理位置，就是一个自然语言的描述。
反馈学习的策略：反馈学习的策略可以在模型训练时、输出生成时或输出生成后出现。在这三个阶段中的每一个阶段，都有各种可用的技术（例如，模型微调、输出重新排序和自我纠正）

模型微调、输出重新排序，大家都不陌生。自我纠正就是让Agent在信息交换的过程中，逐步纠正幻觉的输出。目前自我纠正的方法包括3种类型：

迭代细化
多模型辩论
自我反省

前两个侧重点在模型本身，自我反省则强调的是知识的纠偏，也是我们今天要重点介绍的内容。

让Agent通过反思纠偏，就能极大的缓解Agent的幻觉问题，提高准确率。

二、Self-Reflection（自我反思）

Agent中的自我反省是一种元认知策略,使用自我反省的 LLM 能够识别并纠正其错误,即使LLM无法识别Cot中的推理错误，借助外部反馈的知识仍然能纠正错误。

自我反思流程图和算法

在这里插入图片描述

在这里插入图片描述

8种Self-Reflection的策略

Retry : 被告知回答错误，并简单地再次尝试。
Keywords : 每种错误类型的一组关键字。
Advice: 一组用于改进的一般建议。
Explanation :对其出错原因的解释。
Instructions: 用于解决问题的指令的有序列表。
Solution: 针对问题的逐步解决方案。
Composite : 混合所有六种类型的自我反思，反思时不保留中间答案。
Unredacted: 混合所有六种类型，自我反思时保留各自的答案作为中间结果。

看一下这八种策略的效果其中，Baseline是没有自我反思的Agent,作为对照。

Unredacted策略达到了97%的准确率。说明，当 LLM 在自我反思中获得正确答案并保留为中间推理结果时，它能以较高的准确率回答问题。

在这里插入图片描述

还测试了不同LLM下，8种策略的不同表现。很明显，Unredacted策略依然表现最好。

在这里插入图片描述

最后，测试了不同考试类型（不同程度的分析推理的考试），来观测一下自我反思带来的改进情况。其中，LSAT-AR（分析推理）改进最大，SAT（英语考试）改进最小。说明，越是强调分析推理的问题，自我反思(Self-Reflection)的改进效果越好。

在这里插入图片描述

三、自我反思(Self-Reflection)实战

参考源码：

https://github.com/matthewrenze/self-reflection
https://arxiv.org/abs/2405.06682

四、最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。