Large-Scale Validation and Analysis of Interleaved Search Evaluation阅读摘要

最新推荐文章于 2022-07-25 11:28:43 发布

黑暗贤者

最新推荐文章于 2022-07-25 11:28:43 发布

阅读量350

点赞数

分类专栏：数据分析文章标签：搜索推荐

本文链接：https://blog.csdn.net/juranyaoyingwen/article/details/100779258

版权

本文探讨了交互式搜索评估的大型实证研究，对比专家评估和在线指标，分析不同点击聚合策略对评价结果的影响。研究发现，交互式评估在方向上与专家评估一致，但在数据量需求上更为高效。同时，提出了改进点击评分策略的方法。

摘要由CSDN通过智能技术生成

1. Introduction

专家判断与数据指标
有效性，准确性和局限性
介绍两种interleaving方法，通过问题验证和评估interleaving;是否与传统评估方法一致，是否与其他在线指标一致，敏感性和可靠性如何比较，以及如何在点击的不同信用分配方案中进行选择；最后指出interleaving的局限性。

2. Retrieval Evaluation And Related Work（检索评估和相关工作）

文档和查询的相关性：手动判断Cranfield approach，耗时且昂贵，但可重复使用，不能理解用户的实际信息需求，且不一定与用户绩效指标相关；用户的隐式反馈，分为两类绝对度量和成对偏好，之前的研究大多属于前者，这里的关键问题是处理展示偏见（如位置），列举了一大堆研究；不同于假设用户行为提供了一个绝对的质量数据，成对偏好仅假设可以通过用户行为识别多个选项中更好的一个，如启发式的…，不过同大多数偏好方法不同，其目标是直接评估不同排名的相对质量。
第一种interleaving方法被称为balanced interleaving，blabla，interleaving的发展
交织方法不假设观测的用户行为在绝对规模上随检索质量而变化，相反，他们假设用户在直接比较中识别首选方案。
balanced interleaving和team-draft leaving，在重复文档的处理方式上有所不同。