RAG 中评估阶段非常关键,RAG 是否真正能落地并解决业务问题,需要评估具体需求来判断 RAG 的有效性, 并通过优化达到目标,这里的目标可以定义为评估指标。在业务信息系统开发过程中,测试阶段是保证系统质量的关键阶段,测试又包括单元测试、系统测试和用户测试,”测试先行“ 是很早提出的一个在软件开发流程中的概念,其目标是在开发前先写测试用例,从而提高软件质量。不过通常开发不这么做,也不会有太大的问题,因为会有测试人员进行兜底测试。
而对于 RAG 系统,测试就必须先行了,必须要根据场景先定义出采用什么评估方式,需要什么指标,正确率需要达到多少,是否需要在流程中加入人为验证步骤进行验证等等。最终交付时,RAG 验收的就是那些指标,本文将通过 LlamaIndex 对 RAG 系统进行多维评估。
RAG 评估指标
在 RAG 类似的系统中,通常包括以下类型的评估指标:
- Correctness (正确性): 生成的答案是否与给定查询以及上下文信息(本地知识)匹配。
- Faithfulness (忠实性): 评估答案是否忠实于上下文信息,而不是幻觉,一本正经的胡说八道。
- Answer Relevancy (答案相关性): 生成的答案是否与查询相关。
- Context Relevancy (