目录
🧠 2. 答案相关性(Answer Relevancy):有没有正面回答问题?
🎯 3. 上下文精度(Context Precision):你找的内容“准”不“准”?
🔁 4. 上下文召回率(Context Recall):是不是有关键内容没找回来?
🧩 5. 上下文相关性(Context Relevancy):信息太多也不一定是好事!
在构建基于 RAG(Retrieval-Augmented Generation)的问答系统或智能体时,很多人只关注“它答对了吗?”,却忽略了答案的质量其实是多维度的。
特别是在处理长文本或复杂文档任务时,仅仅看回答是否正确是不够的 —— 我们还需要问:它忠于事实吗?它相关吗?它靠哪些文档答出来的?
今天这篇文章就带你一起深入了解 Ragas 提供的五大关键评估指标,帮助你科学判断你的系统是否真正“靠谱”。
RAG系统的五大核心评估指标
Ragas 提供了五个维度的指标,用于从不同角度衡量问答系统的表现:
维度 | 解释 | 计算依据 |
---|---|---|
忠实度(Faithfulness) | 答案是否忠于文档事实 | Answer + Context |
答案相关性(Answer Relevancy) | 答案是否正面、完整地回应了问题 | Question + Answer |
上下文精度(Context Precision) | 检索的文档是否高度集中在相关内容上 | Question + Contexts |
上下文召回率(Context Recall) | 检索的文档是否包含了所有必要信息 | Ground Truth + Context |
上下文相关性(Context Relevancy) | 检索内容是否紧密围绕问题,无冗余 | Question + Context |
1. 忠实度(Faithfulness):别胡说八道!
目标:判断答案是否完全基于提供的上下文推理出来。
-
✅ 高忠实度:答案中的所有事实都能从 context 中找到依据。
-
❌ 低忠实度:答案中出现了 context 没提及或错误的信息。
示例:
📌 问题:爱因斯坦出生于何时何地?
📄 上下文:爱因斯坦,1879年3月14日生于德国。
✅ 高忠实度答案:1879年3月14日出生于德国。
❌ 低忠实度答案:1879年3月20日出生于德国。
2. 答案相关性(Answer Relevancy):有没有正面回答问题?
目标:看答案是否清晰回应了用户的问题,而不是模棱两可或答非所问。
-
✅ 高相关性:直接回答、无废话、无遗漏。
-
❌ 低相关性:缺失关键信息或只回答了一部分。
示例:
📌 问题:法国在哪里,首都是哪里?
✅ 高相关性答案:法国位于西欧,巴黎是其首都。
❌ 低相关性答案:法国位于西欧。
3. 上下文精度(Context Precision):你找的内容“准”不“准”?
目标:你检索的文档中,有多少真的是“正中靶心”的?
-
✅ 高精度:top N 的文档几乎全是相关内容。
-
❌ 低精度:有用内容被淹没在一堆无关文档中。
适用于衡量检索系统“定位能力”。
4. 上下文召回率(Context Recall):是不是有关键内容没找回来?
目标:你是否把回答问题所需的所有信息都找齐了?
-
✅ 高召回率:所有支持最终答案的上下文片段都被找到了。
-
❌ 低召回率:缺失支撑答案所需的重要证据。
示例:
🧩 Ground Truth:法国在西欧,首都为巴黎。
✅ 高召回:检索包含“法国在西欧”和“巴黎是首都”的信息。
❌ 低召回:只包含“法国在西欧”,没有“巴黎是首都”。
5. 上下文相关性(Context Relevancy):信息太多也不一定是好事!
目标:评估检索上下文是否紧密围绕问题,避免冗余。
-
✅ 高相关性:检索内容简明扼要,只围绕用户问题展开。
-
❌ 低相关性:夹杂与问题无关的信息或跑题描述。
示例:
📌 问题:法国的首都是哪里?
✅ 高相关性:包含“巴黎是法国首都”。
❌ 低相关性:冗余提及法国的葡萄酒、旅游地、古迹等与问题无关的信息。
总结:五大维度,衡量“一个好答案”该有的样子
指标 | 关键词 | 用于判断 |
---|---|---|
忠实度 | “事实” | 答案是否基于上下文 |
答案相关性 | “答题” | 答案是否答对、答全 |
上下文精度 | “准” | 找的资料是否命中要害 |
上下文召回 | “全” | 是否遗漏了关键信息 |
上下文相关性 | “干” | 信息是否围绕问题、避免跑题 |
这些指标合起来,才能帮助我们全面衡量一个智能体是否真正具备“读文献、答问题”的能力。
🧪 应用建议
如果你正在开发 RAG 系统、问答 Agent 或做大模型评估:
-
使用 Ragas 或类似框架,自动评估这五个维度;
-
针对不同场景,结合权重打分:如在精准问答中更重“忠实度”,在文档摘要中更重“上下文召回率”;
-
将这些评估指标用于 模型对比、检索优化、微调训练数据过滤。