大模型面经—RAG工程实践经验总结

[RAG工程如何评测?]

虽然RAG工程整体有很多论文、算法和方法论,但在实际使用过程中,当数据量大了RAG很容易出现不可控的问题, 本篇就针对实践过程中遇到的问题总结面经进行分享,看看能不能给大家提供一些帮助。下面是一个快捷目录。

一. RAG如何去优化索引结构?

二. 当混合检索以及基于不同大小的chunk去检索效果都不太好的时候,如何优化?

三. 如何通过rerank去提升RAG效果的,有哪些方案?

下面是答案。

一. RAG如何去优化索引结构?

1. 优化被检索的embedding

1)微调被检索的embedding

目的: 让被检索的内容与query之间的相关性更加紧密

特别是术语更新较快且比较罕见的领域,可以针对性地进行微调。

2)动态embedding

目的: 基于上下文动态调整embedding

当然这只是个发论文的思路,工程落地的时候这块还是有待验证的。

3)检索后处理流程优化

目的: 直接把所有检索结果给大模型可能会超出上下文窗口限制,内容过多噪声也可能比较多。

优化方法:

  • ReRank

  • Prompt 压缩

  • RAG 管道优化

  • 混合搜索

  • 递归检索与查询引擎

  • StepBack-prompt 方法

  • 子查询

  • HyDE 方法

2. 优化query的chunk大小

chunk大小非常关键,决定了从向量存储中检索的文档的长度。小块可能导致文档缺失一些关键信息,而大块可能引入无关的噪音。找到最佳块大小是要找到正确的平衡。

目前来说一般是按不同块大小划分验证集做实验,直接用验证集效果说话。

3. 结合不同粒度信息进行混合检索

虽然向量搜索有助于检索与给定查询相关的语义相关块,但有时在匹配特定关键词方面缺乏精度。根据用例,有时可能需要精确匹配。

混合检索就是结合embedding搜索和关键词搜索。

二. 当混合检索以及基于不同大小的chunk去检索效果都不太好的时候,如何优化?

这种情况就要针对具体的case关注知识库里是否有答案了。

如果有答案但是没检索出来,那么大概率可能答案被错误分割开了,那么可以结合一些小模型(BERT等)拿来做上下句预测;

另外也可以分析 query 和 doc 的特点:字相关还是语义相关,一般建议是先用推荐系统经典的ES做召回,然后才用模型做精排

三. 如何通过rerank去提升RAG效果的,有哪些方案?

背景:当检索时,前K个结果不一定按最相关的方式排序。它们都是相关的, 但在这些相关内容中,最相关的可能并不是第1或第2个,而是排名靠后的。rerank就是将最相关的信息重新定位到排名靠后的检索结果。

这里推荐一些思路:

Diversity Ranker 根据文档的多样性进行重新排序;

LostInTheMiddleRanker 中提出LLM 会着重把注意力放在文本开头和结尾的位置,那就把最需要让 LLM 关注的 documents 放在开头和结尾的位置。

另外还有一些经典的框架LlamaIndex、LangChain 和 HayStack都可以参考和直接用。

其实主要的思路都大同小异,实际工作中还是主要会结合具体的case来优化,大家有更多的问题和经验也可以一起分享讨论。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。

大模型典型应用场景

AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。

这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。

学习资料领取

如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
请添加图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、LLM面试题

在这里插入图片描述
在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
在这里插入图片描述

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值