【论文阅读】Seven Failure Points When Engineering a Retrieval Augmented Generation System

最新推荐文章于 2024-10-17 16:15:45 发布

Yanc_L

最新推荐文章于 2024-10-17 16:15:45 发布

阅读量949

点赞数 24

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41502855/article/details/140396320

版权

论文从软件工程的角度，通过对3个case study的研究，总结出rag的7个故障点。

Case Studies

3个case study的具体情况如下：

Cognitive Reviewer：论文文献阅读和问答，主要用于做linterature reviews.

AI Tutor: 学习助手，针对课程学习内容作答，包括文本和视频等内容.

BiosASQ：医学知识问答，数据量远大于两外两个case，包含专业的医学领域知识和医学问答对.

Failure points of RAG system

下图说明了整个RAG系统中的组件组成，以及每个组件输入输出情况，值的注意的是下图中的红框，标识了每个故障点，以及它们出现在哪些环节。

FP1 Missing Content：数据库里并不存在query对应的标准答案，但LLM容易根据检索出来的相关内容误答

FP2 Missed the Top Ranked Documents：最相关的文档排序靠后，比如在返回TOP K文档之后

FP3 Not in Context: 文档被检索和正确排序，但文档中的最相关chunk的并没有被整合到参考信息上下文中（猜测是chunk排序靠后，overlap影响等因素）

FP4 Not Extracted: 最相关chunk包含在上下文中，但噪音多，distracted information过多时，LLM可能无法从上下文中推断出正确答案

FP5 Wrong Format: LLM提取信息格式错误，比如在instruction中要求LLM提取表格或者列表，大模型没有按指令输出对应格式

FP6 Incorrect Specify：在某些场景下，比如教学场景，可能存在期望输出结果，但模型的返回的回答可能出现太泛泛而谈，或者过于具体，和期望不符。当用户不知道如何提问，或者问题太笼统时，这种情况也可能出现。这种情况最好返回answer + answer对应的具体课程内容

FP7 回答不完整：即使上下文中包含了完整信息，模型也可能给出不完整的回答。这里论文给的例子是问“A，B，C各有什么特点？”，可能得到的答案只有A的特征，这里可以考虑COT的方式，分别去对A，B，C询问，再组合这个答案。这里还有一种情况是上下文格式的影响。

具体的一些经验教训都在下表中呈现：

对于上表，读者也还有一些疑惑，比如continuous calibration是指业务运行时的实际点赞点踩数据？另外组装RAG组件来提供解决方案是次优的，更需要端到端的训练优化，那RAG效果提升其实很难通过通用模型实现，还是得走定制吗？

Future research direction

chunking & embedding

RAG vs finetuning

Testing and Monitoring RAG systems

前两个方向都比较熟悉，所以读者主要关注了第三个方向RAG评估和监控

RAG评估需要数据和评价指标。验证数据采集方式目前已有了一些研究，包括通过LLM提取QA对，但是如何保证提取的数据接近真实的用户问题是一个难题。

另外大模型的响应速度以及性能也会随着LLM版本更新而变化，要如何监控和适应这些变化。论文提到了一个idea "incorporate ideas from self-adaptive systems to support monitoring and adapting RAG systems"。

关注

24
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Yanc_L CSDN认证博客专家 CSDN认证企业博客

码龄7年

23: 原创

4万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

569: 积分

162: 粉丝

332: 获赞

8: 评论

224: 收藏

私信

关注

热门文章

最新评论

【实践总结】vllm多卡推理
网名而已，备注就行、: vLLM支持复制同一大模型到单机多卡上面吗，目前我还不知道怎么操作，你知道嘛，还是说vLLM本身不支持这样的操作
【论文阅读】BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】MEDICAL GRAPH RAG: TOWARDS SAFE MEDICAL LARGE LANGUAGE MODEL VIA
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense R
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【实践总结】vllm多卡推理
Yanc_L: 好嘞，多谢指导，如果单卡能部署的模型，在单卡上耗时更短，因为没有卡之间的通信消耗，如果单卡内存不够的情况才用多卡推理是吗

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。