LlamaIndex 实现 RAG(五)- RAG 评估

RAG 中评估阶段非常关键,RAG 是否真正能落地并解决业务问题,需要评估具体需求来判断 RAG 的有效性, 并通过优化达到目标,这里的目标可以定义为评估指标。在业务信息系统开发过程中,测试阶段是保证系统质量的关键阶段,测试又包括单元测试、系统测试和用户测试,”测试先行“ 是很早提出的一个在软件开发流程中的概念,其目标是在开发前先写测试用例,从而提高软件质量。不过通常开发不这么做,也不会有太大的问题,因为会有测试人员进行兜底测试。

而对于 RAG 系统,测试就必须先行了,必须要根据场景先定义出采用什么评估方式,需要什么指标,正确率需要达到多少,是否需要在流程中加入人为验证步骤进行验证等等。最终交付时,RAG 验收的就是那些指标,本文将通过 LlamaIndex 对 RAG 系统进行多维评估。

RAG 评估指标

在 RAG 类似的系统中,通常包括以下类型的评估指标:

  • Correctness (正确性): 生成的答案是否与给定查询以及上下文信息(本地知识)匹配。
  • Faithfulness (忠实性): 评估答案是否忠实于上下文信息,而不是幻觉,一本正经的胡说八道。
  • Answer Relevancy (答案相关性): 生成的答案是否与查询相关。
  • Context Relevancy (
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值