Large-Scale Validation and Analysis of Interleaved Search Evaluation阅读摘要

1. Introduction

  专家判断与数据指标
  有效性,准确性和局限性
  介绍两种interleaving方法,通过问题验证和评估interleaving;是否与传统评估方法一致,是否与其他在线指标一致,敏感性和可靠性如何比较,以及如何在点击的不同信用分配方案中进行选择;最后指出interleaving的局限性。

2. Retrieval Evaluation And Related Work(检索评估和相关工作)

  文档和查询的相关性:手动判断Cranfield approach,耗时且昂贵,但可重复使用,不能理解用户的实际信息需求,且不一定与用户绩效指标相关;用户的隐式反馈,分为两类绝对度量和成对偏好,之前的研究大多属于前者,这里的关键问题是处理展示偏见(如位置),列举了一大堆研究;不同于假设用户行为提供了一个绝对的质量数据,成对偏好仅假设可以通过用户行为识别多个选项中更好的一个,如启发式的…,不过同大多数偏好方法不同,其目标是直接评估不同排名的相对质量。
  第一种interleaving方法被称为balanced interleaving,blabla,interleaving的发展
  交织方法不假设观测的用户行为在绝对规模上随检索质量而变化,相反,他们假设用户在直接比较中识别首选方案。
  balanced interleaving和team-draft leaving,在重复文档的处理方式上有所不同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值