RAG——应用——七个最常见的故障点

fan_fan_feng

已于 2024-01-30 18:54:25 修改

阅读量1k

点赞数 9

分类专栏： RAG 文章标签：人工智能大模型 RAG 自然语言处理

于 2024-01-29 19:47:14 首次发布

本文链接：https://blog.csdn.net/fan_fan_feng/article/details/135919548

版权

7 篇文章

订阅专栏

近日，国外研究者发布了一篇论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》，探讨了在实际工程落地RAG应用过程中容易出的七类问题。

论文地址：https://arxiv.org/pdf/2401.05856.pdf

问题的答案在文档库中，但排名得分不够高，无法返回给用户。
理论上，检索过程中所有文档都会被排名得分。然而，在实际操作中，会返回排名前K个文档，为了提高召回率，K不可能设置的无限大，必须基于LLM大模型的能力，折中选择的一个值。

有时候，可能会检索到大量的的文档，受限于模型的context大小限制，需要进行整合修剪才能传给大模型，但这有可能导致真正包含的答案未能放进上下文中。这种情况一样会导致模型产生幻觉，除非Prompt明确指示模型不返回不在上下文中的结果。

FP	研究方向	具体描述
FP4	更多的上下文信息	大模型的窗口从4K增加到8K或者更大，LLM可以使用更多的上下文信息
FP1	语义缓存降低了成本和延迟	由于速率限制和LLM的成本，RAG系统在应对并发用户方面存在困难。使用常见问题的预检索能力，可以缓解内容缺失现象。
FP5~FP7	RAG“越狱”	LLM大模型fine-tuning，增加模型的基础能力
FP2，FP4	增加元信息	将文件名和块编号添加到检索到的上下文中有助于读者提取所需信息。这对聊天对话很有用。
FP2 FP4~7	开源嵌入模型在处理小型文本方面表现更优。	在处理小型文本方面，开源句子嵌入模型的表现与闭源替代品相当。
FP2~7	RAG系统需要持续校准。	RAG系统在运行时接收未知输入，需要不断监控。
FP1 FP2	实现一个RAG配置流水线	一个RAG系统需要校准块大小、嵌入策略、分块策略、检索策略、整合策略、上下文大小和提示。
FP2,FP4	通过组装定制解决方案创建的RAG管道是次优的。	端到端训练模型，增强RAG的领域实用性
FP2~FP4	只有在运行时才能测试性能特征。	离线评估技术，如G-Evals看起来很有前景，但前提是能够获得标记过的问题和答案对。