Tonic Validate Evaluators
The answer similarity score
答案相似度:LLM结果和参考结果的相似度,范围是0-5分
此项是衡量最终结果的性能。
The answer consistency score
答案一致性:答案是否包含检索到的上下文中未出现的信息,范围是0-1分,如果不包含,分数为1。
此项是衡量幻觉的性能。
Augmentation accuracy
增强准确率:答案中检索到的上下文的百分比,范围是0-1分。此项是衡量增强生成的性能。
Augmentation precision
增强精确率:相关检索上下文是否进入答案,范围是0-1分。此项是衡量增强生成的性能。
和前一项指标的区别是
分母不同:前者的分母是所有上下文、精确率的分母是相关的检索上下文。
Retrieval precision
检索精确率:检索到的上下文与回答问题相关的百分比,范围是0-1分。此项是衡量检索的性能。
评估的prompt
我们提示法官LLM采取逐步的方法来提供相关性分数,要求其回答以下两个问题,即针对答案相关性查询生成的答案(对于上下文)相关性略有调整):
(1)Does the provided response match the subject matter of the user’s query?
提供的响应是否与用户查询的主题匹配?
(2)Does the provided response attempt to address the focus or perspective on the subject matter taken on by the user’s query?
所提供的响应是否试图解决用户查询所涉及主题的焦点或观点?