—1—
RAG 评估的挑战
增强检索生成技术(Retrieval Augmented Generation,简称 RAG)目前正成为增强大语言模型(LLM)性能的核心手段。该技术通过将外部知识库融入LLM,大幅提升了大模型的精确度和对上下文的感知力。然而,对 RAG 系统性能的评测颇具挑战,这促使了一系列开源 RAG 评估框架的诞生。下面,让我们共同探讨5大开源的 RAG 评估框架。
—2—
开源评估框架1:Ragas
Ragas(Retrieval-Augmented Generation Assessment) 是一款专为评测增强检索生成(RAG)流程而精心构建的强大工具。它凭借其全面评估 RAG 的方法论,迅速赢得了开发者和数据科学家们的广泛认可。
Ragas 是一个框架,它可以帮助我们来快速评估 RAG 系统的性能,为了评估 RAG 系统,Ragas 需要以下信息:
question:用户输入的问题。
answer:从 RAG 系统生成的答案(由 LLM 给出)。
contexts:根据用户的问题从外部知识源检索的上下文即与问题相关的文档。
ground_truths:人类提供的基于问题的真实(正确)答案。这是唯一的需要人类提供的信息。
当 Ragas 拿到上述这些信息后会基于大语言模型来对 RAG 系统进行打分,就像在任何机器学习系统中一样,LLM 和 RAG 流程中各个组件的性能对整体体验具有重大影响。Ragas 提供了专门用于单独评估 RAG 流程的每个组件的指标。
1、关键特性
-
量身定制的评估标准:Ragas 提供了一系列专门为 RAG 系统设计的评估指标,这些指标能够精确地评估 RAG 系统在多个维度的性能。
<