RAG的评估指标

Tonic Validate Evaluators

Tonic Validate Evaluators

The answer similarity score

答案相似度:LLM结果和参考结果的相似度,范围是0-5分

此项是衡量最终结果的性能。

The answer consistency score

答案一致性:答案是否包含检索到的上下文中出现的信息,范围是0-1分,如果不包含,分数为1。

此项是衡量幻觉的性能。

Augmentation accuracy

增强准确率:答案中检索到的上下文的百分比,范围是0-1分。此项是衡量增强生成的性能。

Augmentation precision

增强精确率:相关检索上下文是否进入答案,范围是0-1分。此项是衡量增强生成的性能。

和前一项指标的区别是

分母不同:前者的分母是所有上下文、精确率的分母是相关的检索上下文。

Retrieval precision

检索精确率:检索到的上下文与回答问题相关的百分比,范围是0-1分。此项是衡量检索的性能。

评估的prompt

我们提示法官LLM采取逐步的方法来提供相关性分数,要求其回答以下两个问题,即针对答案相关性查询生成的答案(对于上下文)相关性略有调整):

(1)Does the provided response match the subject matter of the user’s query?
提供的响应是否与用户查询的主题匹配?

(2)Does the provided response attempt to address the focus or perspective on the subject matter taken on by the user’s query?
所提供的响应是否试图解决用户查询所涉及主题的焦点或观点?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值