自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 RAG 检索效用如何量化:从相关性指标到语义困惑度评估

本文探讨了RAG系统中检索效用的量化评估问题,指出传统检索指标与答案质量之间存在偏差。研究聚焦语义困惑度评估方法SePer,该方法通过比较检索前后答案语义簇分布的困惑度变化来衡量检索效用。实验显示SePer与检索效用的相关性显著高于传统指标(平均0.778),且对负效用检索具有诊断价值。研究建议将SePer作为补充指标而非单一优化目标,结合任务指标进行联合评估。该方法特别适用于检索策略的离线诊断,但需注意其在多跳推理等复杂任务中的局限性。研究为RAG系统评估提供了新的语义不确定性视角。

2026-02-15 21:09:34 851

原创 SePer: 用语义困惑度评估检索/RAG效用的一种可操作框架(ICLR 2025 Spotlight)

本文介绍ICLR 2025论文《SePer》,提出用语义困惑度(SePer)评估检索增强生成(RAG)中检索对答案的实际效用。该方法通过对比检索前后语义簇分布的不确定性变化,比传统相关性指标更准确反映检索对答案生成的实质性帮助。实验显示SePer与检索效用的相关性(平均0.778)显著优于ROUGE-L/NDCG等基线,且采样10次即可稳定。研究发现无关检索会对大模型产生显著负面影响,SePer可有效识别这类负效用案例。

2026-02-09 20:52:12 830

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除