1. Introduction
专家判断与数据指标
有效性,准确性和局限性
介绍两种interleaving方法,通过问题验证和评估interleaving;是否与传统评估方法一致,是否与其他在线指标一致,敏感性和可靠性如何比较,以及如何在点击的不同信用分配方案中进行选择;最后指出interleaving的局限性。
2. Retrieval Evaluation And Related Work(检索评估和相关工作)
文档和查询的相关性:手动判断Cranfield approach,耗时且昂贵,但可重复使用,不能理解用户的实际信息需求,且不一定与用户绩效指标相关;用户的隐式反馈,分为两类绝对度量和成对偏好,之前的研究大多属于前者,这里的关键问题是处理展示偏见(如位置),列举了一大堆研究;不同于假设用户行为提供了一个绝对的质量数据,成对偏好仅假设可以通过用户行为识别多个选项中更好的一个,如启发式的…,不过同大多数偏好方法不同,其目标是直接评估不同排名的相对质量。
第一种interleaving方法被称为balanced interleaving,blabla,interleaving的发展
交织方法不假设观测的用户行为在绝对规模上随检索质量而变化,相反,他们假设用户在直接比较中识别首选方案。
balanced interleaving和team-draft leaving,在重复文档的处理方式上有所不同。