【RAG】综述：一文了解RAG评估方法、工具与指标

最新推荐文章于 2025-03-27 15:14:50 发布

LLM大模型

最新推荐文章于 2025-03-27 15:14:50 发布

阅读量2.9k

点赞数 9

文章标签：人工智能 langchain ai大模型大模型 LLM RAG

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/140430751

版权

前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。那么如何评估RAG的效果呢？本文我们来了解一下。

0. RAG效果评估的必要性

评估出RAG对大模型能力改善的程度
RAG优化过程，通过评估可以知道改善的方向和参数调整的程度

1. RAG评估方法

1.1 人工评估

最Low的方式是进行人工评估：邀请专家或人工评估员对RAG生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估，如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈，但可能会消耗大量的时间和人力资源。

1.2 自动化评估

自动化评估肯定是RAG评估的主流和发展方向。

1.2.1.1 LangSmith

需要准备测试数据集
不仅可以评估RAG效果，对于LangChain中的Prompt模板等步骤都可进行测试评估。

1.2.1.2 Langfuse

Langfuse作为LangSmith的平替，也具有自动化评估的功能。

需要准备测试数据集
不仅可以评估RAG效果，对于LangChain中的Prompt模板等步骤都可进行测试评估。

以上两个平台对RAG的评估，都可以自定义自己的评估函数。当然其也支持一些内置的评估函数。

1.2.1.3 Trulens

TruLens是一款旨在评估和改进 LLM 应用的软件工具，它相对独立，可以集成 LangChain 或 LlamaIndex 等 LLM 开发框架。它使用反馈功能来客观地衡量 LLM 应用的质量和效果。这包括分析相关性、适用性和有害性等方面。TruLens 提供程序化反馈，支持 LLM 应用的快速迭代，这比人工反馈更快速、更可扩展。

开源链接：https://github.com/truera/trulens
使用手册：https://www.trulens.org/trulens_eval/install/

使用的步骤：

（1）创建LLM应用

（2）将LLM应用与TruLens连接，记录日志并上传

（3）添加 feedback functions到日志中，并评估LLM应用的质量

（4）在TruLens的看板中可视化查看日志、评估结果等

（5）迭代和优化LLM应用，选择最优的版本

其对于RAG的评估主要有三个指标：

上下文相关性（context relevance）：衡量用户提问与查询到的参考上下文之间的相关性
忠实性（groundedness ）：衡量大模型生成的回复有多少是来自于参考上下文中的内容
答案相关性（answer relevance）：衡量用户提问与大模型回复之间的相关性

其对RAG的评估不需要有提前收集的测试数据集和相应的答案。

1.2.4 RAGAS

考虑标准的RAG设置，即给定一个问题q，系统首先检索一些上下文c(q)，然后使用检索到的上下文生成答案as(q)。在构建RAG系统时，通常无法访问人工标注的数据集或参考答案，因此该工作将重点放在完全独立且无参考的度量指标上。

四个指标，与Trulens的评估指标有些类似：

评估检索质量：

- context_relevancy（上下文相关性，也叫 context_precision）
- context_recall（召回性，越高表示检索出来的内容与正确答案越相关）

评估生成质量：

- faithfulness（忠实性，越高表示答案的生成使用了越多的参考文档（检索出来的内容））
- answer_relevancy（答案的相关性）

2. 常用评估指标

在上文评估方法中已经介绍了几种常用的评估指标：

2.1 Trulens 的RAG三元组指标

上下文相关性（context relevance）：衡量用户提问与查询到的参考上下文之间的相关性
忠实性（groundedness ）：衡量大模型生成的回复有多少是来自于参考上下文中的内容
答案相关性（answer relevance）：衡量用户提问与大模型回复之间的相关性

2.2 RAGAS的四个指标

四个指标，与Trulens的评估指标有些类似：

评估检索质量：

- context_relevancy（上下文相关性，也叫 context_precision）
- context_recall（召回性，越高表示检索出来的内容与正确答案越相关）

评估生成质量：

- faithfulness（忠实性，越高表示答案的生成使用了越多的参考文档（检索出来的内容））
- answer_relevancy（答案的相关性）

2.3 其它指标

参考论文：https://arxiv.org/pdf/2309.01431.pdf

（1）噪声鲁棒性（Noise Robustness）

衡量从噪声文档中提取有用的信息能力。在现实世界中，存在大量的噪声信息，例如假新闻，这给语言模型带来了挑战。

（2）否定拒绝（Negative Rejection）

当检索到的文档不足以支撑回答用户的问题时，模型应拒绝回答问题，发出"信息不足"或其他拒绝信号。

（3）信息整合(information integration)

评估模型能否回答需要整合多个文档信息的复杂问题，即，当一个问题需要查找多个文档，综合信息之后才能回答时，模型的表现。

（4）反事实鲁棒性（CounterfactualRobustness）

模型能否识别检索文档中已知事实错误的能力，即当索引的文档信息原本就是与事实相背时，大模型能否识别出不对。

3. 总结

本文主要总结了当前比较流行的评估方法和指标。当前AI技术的快速发展，RAG和RAG评估是当前比较有前景的发展方向，不断有新的评估工具和理论被提出，让我们持续跟进，了解这些工具和理论，从而在使用时知道如何选择。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍