之前笔者已经介绍了如何通过 Chunking 和 Embedding 来优化 RAG 系统。今天我们来聊聊评估 RAG 系统性能的指标体系。我们的重点会放在评估大模型的输出的指标上。
在优化基于检索增强生成(Retrieval-Augmented Generation, RAG)的系统时,明确性能评估方法是关键的一步。本篇文章将围绕 RAG 系统的评估指标展开,重点探讨如何通过科学评估优化系统性能。
1. RAG 的基本组成部分
RAG 系统通常由两个主要阶段组成:
1.1 数据摄取(Data Ingestion):
- 将结构化或非结构化数据转化为适合向量数据库的形式。
- 数据准备的典型步骤包括清洗、分词、嵌入生成等。
- 举例:对新闻文章进行分块处理并生成嵌入以便后续检索。
1.2 数据查询(Data Querying):
- 检索(Retrieval): 从向量数据库中提取与用户查询相关的内容。
- 合成(Synthesis): 将检索内容与用户查询结合,通过大模型生成最终回答。
- 应用场景: 包括客户支持、企业知识问答系统等。
2. 如何评估 RAG 的性能
优化 RAG 系统的关键