RAG的评估指标

最新推荐文章于 2024-09-20 09:29:58 发布

谁怕平生太急

最新推荐文章于 2024-09-20 09:29:58 发布

阅读量699

点赞数 10

分类专栏： Agent 文章标签： Agent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinselizhi/article/details/139334483

版权

Agent 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

Tonic Validate Evaluators

Tonic Validate Evaluators

The answer similarity score

答案相似度：LLM结果和参考结果的相似度，范围是0-5分

此项是衡量最终结果的性能。

The answer consistency score

答案一致性：答案是否包含检索到的上下文中未出现的信息，范围是0-1分，如果不包含，分数为1。

此项是衡量幻觉的性能。

Augmentation accuracy

增强准确率：答案中检索到的上下文的百分比，范围是0-1分。此项是衡量增强生成的性能。

Augmentation precision

增强精确率：相关检索上下文是否进入答案，范围是0-1分。此项是衡量增强生成的性能。

和前一项指标的区别是

分母不同：前者的分母是所有上下文、精确率的分母是相关的检索上下文。

Retrieval precision

检索精确率：检索到的上下文与回答问题相关的百分比，范围是0-1分。此项是衡量检索的性能。

评估的prompt

我们提示法官LLM采取逐步的方法来提供相关性分数，要求其回答以下两个问题，即针对答案相关性查询生成的答案（对于上下文）相关性略有调整）：

（1）Does the provided response match the subject matter of the user’s query?
提供的响应是否与用户查询的主题匹配？

（2）Does the provided response attempt to address the focus or perspective on the subject matter taken on by the user’s query?
所提供的响应是否试图解决用户查询所涉及主题的焦点或观点？

谁怕平生太急

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

谁怕平生太急 CSDN认证博客专家 CSDN认证企业博客

码龄9年

167: 原创

1万+: 周排名

1万+: 总排名

16万+: 访问

: 等级

3267: 积分

415: 粉丝

602: 获赞

11: 评论

674: 收藏

私信

关注

热门文章

分类专栏

大模型 25篇
读书笔记 5篇
算法基础 9篇
中医 5篇
刷题 3篇
阅读 52篇
Agent 14篇
大神 2篇
生活 13篇
RAG 1篇
架构 1篇
数据 1篇
开发 27篇
读文章
百面机器学习的读书笔记 5篇

最新评论

如何实现langchain的bind_tools功能
睡觉了i: 你好，请问一下这个agent如果替换成from langgraph.prebuilt import create_react_agent这个可以吗
llava1.5论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读 BLIP-2
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
llava论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Qwen2-VL论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。