一脚踹开 RAG 大门,深入它所面临的挑战

最近一直在看大模型 RAG 技术相关,可以看到 RAG 技术还有很多痛点,本篇再深入一步,思考一些解决方法~

闲话少说,直接开冲!

为什么是 RAG?

通俗来理解,RAG 就是给大模型加一个物理外挂,通过它来给大模型加持专业知识。

思路:构建几十万量级的数据,然后利用这些数据对大模型进行微调,以将额外知识注入大模型;

具体实现:加载文件 => 读取文本 => 文本分割 =>文本向量化 =>问句向量化 =>在文本向量中匹配出与问句向量最相似的 top k 个 =>匹配出的文本作为上下文和问题一起添加到 prompt 中 =>提交给 LLM 生成回答

RAG 优点呢就是简单粗暴,缺点就是这几十万量级的数据训练成本高,且融入到大模型的程度有限。

image.png

RAG 核心就是将用户知识库内容经过 embedding 存入向量知识库,然后用户每一次提问也会经过
embedding,利用向量相关性算法(例如余弦算法)找到最匹配的几个知识库片段,将这些
知识库片段作为上下文,与用户问题一起作为 promt 提交给 LLM 回答。

RAG 痛点和解决

Q1

1、文档切分粒度不好把控,既担心噪声太多又担心语义信息丢失;

Q2

2、在基于垂直领域表现不佳:主要在于一个是对 embedding 模型的基于垂直领域的数据进行微调;一个是对LLM 基于垂直领域的数据进行微调;

Q3

3、langchain 内置问答分句效果不佳;

一种是使用更好的文档拆分的方式(如项目中已经集成的达摩院的语义识别的模型及进
行拆分);一种是改进填充的方式,判断中心句上下文的句子是否和中心句相关,仅添加相关度高
的句子;另一种是文本分段后,对每段分别及进行总结,基于总结内容语义及进行匹配;

Q4

4、如何尽可能召回与 query 相关的 Document 问题?

将本地知识切分成 Document 的时候,需要考虑 Document 的长度、Document embedding 质
量和被召回 Document 数量这三者之间的相互影响。

在文本切分算法还没那么智能的情况下,本地知识的内容最好是已经结构化比较好了,各个段落之间语义关联没那么强。Document 较短的情况下,得到的 Document embedding 的质量可能会高一些,通过 Faiss 得到的 Document 与 query 相关度会高一些。

Q5

5、如何让 LLM 基于 query 和 context 得到高质量的 response ?

尝试多个的 prompt 模版,选择一个合适的,但是这个可能有点玄学;用与本地知识问答相关的语料,对 LLM 进行 Finetune。

Q6

6、embedding 模型在表示 text chunks 时偏差太大问题;

一些开源的 embedding 模型本身效果一般,尤其是当 text chunk 很大的时候,强行变成一个简单的 vector 是很难准确表示的,开源的模型在效果上确实不如 openai Embeddings;

多语言问题,paper 的内容是英文的,用户的 query 和生成的内容都是中文的,这里有个语言之间的对齐问题,尤其是可以用中文的 query embedding 来从英文的 text chunking embedding 中找到更加相似的 top-k 是个具有挑战的问题

解决方法是用更小的 text chunk 配合更大的 topk 来提升表现,毕竟 smaller text chunk 用 embedding 表示起来 noise 更小,更大的 topk 可以组合更丰富的 context 来生成质量更高的回答;

多语言可以找一些更加适合多语言的 embedding 模型;

Q7

7、不同的 prompt,可能产生完全不同的效果问题;

prompt 是个神奇的东西,不同的提法,可能产生完全不同的效果。尤其是指令,指令型 llm 在训练或者微调的时候,基本上都有个输出模板,这个如果前期没有给出 instruction data 说明,需要做很多的尝试,尤其是希望生成的结果是按照一定格式给出的,需要做更多的尝试;

Q8

8、生成效果问题;

LLM 本质上是个“接茬”机器,你给上句,他补充下一句。

各家的 LLM 在理解 context 和接茬这两个环节上相差还是挺多的。

可以选择一些好玩的开源模型,比如 llama2 和 baichuan2,然后自己构造一些 domain dataset,做一些微调的工作,让 llm 更听你的话

Q9

9、如何更高质量地召回 context 喂给 llm;

解决方法:用更加细颗粒度地来做 recall,当然如果是希望在学术内容上来提升质量,学术相关的 embedding 模型、指令数据,以及更加细致和更具针对性的 pdf 解析都是必要的。

RAG 模块优化

从 RAG 的工作流中看,RAG 模块有:文档块切分、文本嵌入模型、提示工中、大模型生成。

不同模块,策略不同:

文档块切分:设置适当的块间重叠、多粒度文档块切分、基于语义的文档切分、文档块摘要。

文本嵌入模型:基于新语料微调嵌入模型、动态表征。

提示工中优化:优化模板增加提示词约束、提示词改写。

大模型迭代:基于正反馈微调模型、量化感知训练、提供大 context window 的推理模型。 还可对 query 召回的文档块集合进行处理,如:元数据过滤、重排序减少文档块数量。

RAG 还有一些架构优化策略,比如利用 知识图谱(KG)进行上下文增强、如何让大模型对召回结果进行筛选、以及引入多向量检索器等。

后续有机会再研究研究~~


如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值