一、RAG评估方法
有两种方法评估RAG:独立评估和端到端
1. 独立评估
独立评估就是对检索模块和生成模型分布评估。
1)检索模块
评估RAG检索模块性能的指标主要用于衡量系统(如搜索引擎、推荐系统或信息检索系统),即根据查询评估有效性。
具体指标包括:命中率 (Hit Rate)、平均排名倒数 (MRR)、归一化折扣累积增益 (NDCG)、精确度 (Precision) 等。这块跟推荐系统的评价指标相同。
命中率 (Hit Rate)
检索结果中用户实际检索的实体词或者关键词所占的比例。
平均排名倒数 (MRR)
是用来衡量返回结果的排名质量。MRR考虑了用户第一次遇到相关检索的排名;
结果列表中,第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和,再求平均。
计算方法
对于每个查询,首先计算倒数排名(即第一个相关检索的排名的倒数),如果没有相关检索结果,则倒数排名为0。然后,计算所有查询的倒数排名的平均值。
归一化折扣累积增益 (NDCG)
NDCG用于衡量排名质量。它考虑了所有相关结果的排名,并根据排名对其赋予不同的权重(排名越靠前,权重越大)。
计算方法
首先计算DCG(Discounted Cumulative Gain),然后将其标准化。
2)端到端评估
RAG 对特定输入生成的最终响应进行评估,主要是模型生成的答案与输入查询的相关性和一致性。
-
对无标签的内容评估评价指标:答案的准确性、相关性和无害性
-
有标签的内容评估评价指标:准确率 (Accuracy) 和精确匹配 (EM)
准确率比较简单,主要具体讲一下精准匹配 (EM)。
精确匹配是指模型给出的答案与参考答案完全一致时的评价指标。
如果模型的答案与参考答案完全相同,则EM得分为1;否则为0。
计算公式:
EM = 1,如果答案与参考答案完全一致;
EM = 0,如果答案与参考答案不一致。
二、RAG 的关键指标和能力
三个关键指标:答案的准确性、答案的相关性和上下文的相关性。
四个关键能力:主要是看抗噪声能力、拒绝无效回答能力、信息综合能力和反事实稳健性。
三、RAG的评估框架
这里介绍的主要是RAGAS 和 ARES。
1. RAGAS
RAGAS 是一个基于简单手写提示的评估框架,通过这些提示全自动地衡量答案的准确性、 相关性和上下文相关性。
算法原理:
1) 答案忠实度评估:利用大语言模型 (LLM) 分解答案为多个陈述,检验每个陈述与上下文 的一致性。即根据支持的陈述数量与总陈述数量的比例,计算出一个“忠实度得分”。
2) 答案相关性评估:使用大语言模型 (LLM) 创造可能的问题,并分析这些问题与原始问题的相似度。答案相关性得分是通过计算所有生成问题与原始问题相似度的平均值来得出的。
3)上下文相关性评估:运用大语言模型 (LLM) 筛选出直接与问题相关的句子,以这些句子占上下文总句子数量的比例来确定上下文相关性得分。
2. ARES
ARES 的目标是自动化评价 RAG 系统在上下文相关性、答案忠实度和答案相关性三个方面的性能。
ARES 减少了评估成本,通过使用少量的手动标注数据和合成数据,并应用预测驱动推理 (PDR) 提供统计置信区间,提高了评估的准确性。
算法原理:
1)生成合成数据集:ARES 首先使用语言模型从目标语料库中的文档生成合成问题和答案,创 建正负两种样本。
2)训练大语言模型 (LLM) 裁判:然后,ARES 对轻量级语言模型进行微调,利用合成数据集训练它们以评其上下文相关性、答案忠实度和答案相关性。
3)基于置信区间对RAG系统排名:最后,ARES 使用这些裁判模型为 RAG 系统打分,并结合手动标注的验证集,采用 PPI 方法生成置信区间,从而可靠地评估RAG 系统的性能。
如何学习大模型?
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【
保证100%免费
】