LLM Agent之RAG的反思：放弃了压缩还是智能么？

AI-智能

已于 2024-05-05 14:43:22 修改

阅读量969

点赞数 23

文章标签：人工智能 chatgpt 大模型机器学习

于 2024-01-31 19:30:00 首次发布

本文链接：https://blog.csdn.net/2401_82469710/article/details/135931222

版权

反思来源于对RAG下模型回答的直观感受，最初我们被ChatGPT的能力所震惊，并不是它能背诵知识，而是模型在知识压缩后表现出的“涌现能力”，更具体到RAG所属的问答领域，是模型能够精准的基于上文从压缩的参数中召回并整合相应的知识，甚至进行知识外推的能力。通俗点说它有可能生成我在任何地方都检索不到的答案！

但RAG当前的多数使用方法，采用只让模型基于检索到的内容进行回答的方案，其实限制了模型自身对知识压缩形成的智能，大模型似乎变成了文本抽取和总结润色的工具。体验上大模型直接回答的效果就像是学霸答题文采四溢，而RAG有时倒像是学渣开卷考试，答得小心翼翼一有不慎还会抄错答案…

既要保证事实性，又要保留模型智能，则需要最大化的使用模型已经内化压缩到参数中的信息，只在需要使用外部知识增强的时候再进行工具调用。看到过以下几种方案

Detection：通过前置判断，决策模型何时需要使用外挂，在模型可以自行回答的时候，使用模型回答，当模型不能回答的时候走RAG检索生成

Realtime Data：需要获取动态世界的信息，部分场景可以通过意图进行决策，相对好解决
Incorrect or Incomplete：模型不知道，或者模型推理幻觉，如何知道模型可能不知道是更难解决的问题

Calibration：通过后置处理，让模型先生成，再使用召回内容对模型回答进行修正校准和事实性检查
两种方案勾兑一下：高置信度判断模型可以自行完成直接回答，中置信度先生成再校验，低置信度直接走RAG检索生成，或者通过意图和场景进行决策

如何勾兑就不在这里说了，这里我们聊聊基础的前置判断和后置处理分别有哪些方案~

前置判断-Detection

检测模型回答存在幻觉可以通过检索外部知识进行校验，不过考虑生成式模型覆盖问题的广泛性，Self-Contradictory论文中评估chatgpt生成的回答中38.5%的内容无法通过Wiki等外部知识进行校验。

因此这里我们先介绍一种完全基于模型自身，不依赖外部知识的幻觉判断方案自我矛盾。后介绍一种模型直接拒绝回答的方案，和RLHF里面的事实性原则类似，这里是基于SFT的模型自我拒绝方案，不过个人对拒识类的方案持一定的保留意见，但不妨碍学习新思路哈哈~~

自我矛盾

第一种发现模型幻觉的方案是基于模型多次回答的不一致性来判断模型是否在胡说八道。相似的概念在解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法里面聊Self-Consistency COT时就提到过，该论文是使用多路COT推理来投票出一个最合理的推理路径，从而提高思考的准确率。这里只不过改变了使用的形式，通过模型多次回答的不一致来判断模型是否出现了幻觉。有以下几种生成模型多次回答，并度量一致性的方案

单模型推理

SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
SELF-CONTRADICTORY HALLUCINATIONS OF LLMS: EVALUATION, DETECTION AND MITIGATION

对于如何度量模型随机生成的多个回答之间的不一致性，Self-Check尝试了包括Bert相似度计算在内的5种方法，其中效果最好的两种分别是传统NLI和基于大模型prompt的NLI，从推理性价比上传统NLI有优势，效果上LLM更好，以下是使用不同相似度计算方案来衡量模型多次随机解码的不一致性，并用该指标来计算模型回答是否符合事实性的AUC效果

传统NLI推理任务，是给定前提（premise）判断假设（hypothesis）是否成立或者矛盾。这里论文就是使用MNLI数据训练的Debarta-v3-Large来判断模型生成的回答r(hypothesis)，是否和其他N个采样生成的回答(premise)相矛盾。论文分别尝试了句子级的判断和整个回答粒度的判断，句子级别的效果显著更好。

在这里插入图片描述

而基于大模型prompt，同样是NLI任务的思路，只不过改成了自然语言指令，以下context等同于以上的 Sn, sentence就是 ri, 大模型推理返回的Yes/NO会被转化成0/1，并计算均值。

在这里插入图片描述

SELF-Contradictory的思路很相似，方法更加复杂些，感兴趣的朋友自己去看论文吧~

多模型问答

DeepMind LM vs LM: Detecting Factual Errors via Cross Examination
Improving Factuality and Reasoning in Language Models through Multiagent Debate

同样是自我矛盾的思路，还可以通过多模型对话的方式来进行。LM VS LM采用了模型B多次反复提问模型A的方式来生成多个回答。类似的方式也用于问卷中问题的设计，出题人会用不同的方式把一个问题问好几遍，如果每次回答都不一样，说明做题人对类似问题的回答是不确定的。如下图

第一步模型A先生成回答(claim)。第二步模型B会针对cliam，从多个角度生成提问并让模型A再次进行回答。第三步模型B会基于A的原始回答，和对多个问题的回答来判断原始回答的正确性。以上B提问A回答的步骤，如果B判断需要进行补充提问的话，可能会重复多次。

这里涉及到的三个任务都是通过大模型指令来进行的，三个任务分别是：模型B基于A的cliam进行提问，模型B判断是否继续提问，模型B基于A的所有回答判断claim是否正确。对应的具体prompt如下

相比上面SELF-CHECK随机解码生成多个答案的方案，从多角度进行提问，个人感觉更有针对性，但两种方法都会有遗漏和误伤。推理成本上SELF-CHECK更低，LM vs LM更高。

自我拒绝

R-Tuning: Teaching Large Language Models to Refuse Unknown Questions

除了通过不一致性判断模型出现幻觉，另一种更干脆直接的方案，是让模型在碰到自己不确定的问题时，直接选择拒绝回答，和RLHF中的事实性原则的是一个思路。但我对这类方案最大的疑惑是拒识能力的泛化性。究竟模型是学到了对于自身parametric knowledge置信度较低，混淆度较高的问题进行拒绝回答，还是模型背下来了对某些知识和上文语义空间进行拒绝回答。这个我也还没想明白哈哈哈~

所以这里我们绕过这个问题，聊一种中间策略，毕竟西医好多疾病也没研究明白，但病还得治不是。R-Tunning提出指令微调可能放大了模型的回答幻觉。因为指令微调的数据集中所有问题都有答案，微调任务就是负责教会模型各种任务范式，以及在不同的任务中如何召回预训练中学习的知识并回答问题。但我们忽略了SFT中很多任务涉及到的知识在模型预训练中可能是没接触过的，但我们依旧选择让模型去进行回答。这种预训练和指令微调间的不一致性，可能会进一步放大模型幻觉。

R-Tunning给出的解决方案是在构建指令微调数据集时，加入模型是否对改答案表示肯定的描述，这样允许模型拒绝自己不确定的问题。分成2个步骤

找到模型不确定的问题，论文尝试了两种方案

R-Tuning：模型回答和标注答案不一致，适用于有标准答案的QA问题
R-Tuning-U：模型回答自我矛盾，这里论文计算模型回答包含的所有答案的熵值

构建允许模型拒绝的指令数据集，论文也尝试了以下两种prompt指令模板

R-Tuning：“Q:{Question},A:{Answer}.{Propmt}.”,其中prompt是Are you sure you accurately answered the question based on your internal knowledge:对于上面模型确定的问题加上I am sure，不确定的问题加上I am not sure
R-Tuning-R: 对于确定给的问题使用"Q:{Question},A:{Answer}"，对于不确定的问题用I am not sure 的各种相似表达来直接替换Answer

然后使用以上加入模型不确定性表达的数据集进行指令微调即可。在我们的使用场景中R-Tunning-R这种直接拒绝的方案更加合适，毕竟我倾向于指令微调的核心并不是知识注入，而是任务对齐，所以模型只要学习到对于自己不确定的问题选择拒绝回答即可。在论文验证的MMLU等数据集上这种拒绝微调方案有一定的领域外的泛化效果，不过这些数据集和我们的使用场景相差很大，具体效果要等测试后才知道了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

AI-智能

关注

23
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
LLM Agent之RAG的反思：放弃了压缩还是智能么？

反思来源于对RAG下模型回答的直观感受，最初我们被ChatGPT的能力所震惊，并不是它能背诵知识，而是模型在知识压缩后表现出的“涌现能力”，更具体到RAG所属的问答领域，是模型能够精准的基于上文从压缩的参数中召回并整合相应的知识，甚至进行知识外推的能力。通俗点说它有可能生成我在任何地方都检索不到的答案！但RAG当前的多数使用方法，采用只让模型基于检索到的内容进行回答的方案，其实，大模型似乎变成了文本抽取和总结润色的工具。
复制链接

扫一扫