文章目录
1 介绍
概述题目:OVERVIEW OF THE TREC 2020 DEEP LEARNING TRACK
概述来源:TREC 2020
概述链接:https://trec.nist.gov/pubs/trec29/papers/OVERVIEW.DL.pdf
深度学习的方法已经在语音识别和CV领域取得了显著的性能提升,但在信息检索中,并没有显著的性能提升。TREC Deep Learning Track的主要目标是研究在大的训练数据区域中的信息检索,以确定哪种检索方法效果最好。
2 任务定义
分为两个任务:文档检索和段落检索
2.1 文档检索
文档检索任务分为完整检索和top-100重排。
- 在完整检索子任务中,将根据文档与查询的相关性对文档进行排序,可以从提供的完整文档集合中检索文档。此子任务对端到端检索场景进行建模。
- 在重排子任务中,给出100个文档的初始排名,对这些文档进行排序。
评测标准:
- 完成相关:该文档专用于查询,值得成为搜索引擎中的top结果
- 高度相关:文档提供大量的信息与查询有关
- 相关:文档提供一些信息与查询有关(可能很少)
- 不相关: 文档对查询不提供有用的信息
2.2 段落检索
与文档检索类似,分为完整检索和top-1000重排。
- 在完整检索子任务中,给定一个查询,要求参与者根据他们估计的包含问题答案的可能性,从完整集合中检索段落的排序列表。对于这项端到端检索任务,参与者每次查询最多可以提交1000篇段落。
- 在重排子任务中,对每个查询提供给参与者1000篇段落,进行重新排名。
评测标准也类似。
3 数据集
基于人工相关性评估的数据集MS MARCO,同时发布一个大规模点击数据集ORCAS,来源于主流搜索引擎的日志。
4 结果分析
方法分为三类:
- nnlm:使用大规模预训练语言模型
- nn:使用深度学习的方法或者词向量
- trad:传统信息检索方法
评测指标为NDCG@10(Normalized Discounted Cumulative Gain)、Average Precision (AP)和Reciprocal Rank (RR)。
4.1 深度学习与传统方法的对比
可以发现在b图中三中方法的差距是更大,一个原因是在短文本中,查询和相关结果之间的词汇不匹配的概率是更大的。另一个原因是对于段落任务,尽管没有NIST的测试标签,但是已经有了一个公共排行榜
在文档检索任务中,最好的nnlm模型比最好的传统模型在38个(共45个,84%)测试查询上表现好。在段落检索中的结果也类似。
4.2 端到端检索与重排的对比
结果如下图,具体来说,对于文档检索任务,最佳的完整检索比最佳重排高 5%的NDCG@10; 而对于段落检索任务,与最佳的重排相比,最佳的完整检索的性能稍差(NDCG@10低0.3%)
4.3 ORCAS数据的影响
使用ORCAS数据集会提高NDCG@10的性能,最大的增加是在 NDCG@10大约0.0513%。
4.4 NIST标签与稀疏的MS MARCO标签的对比
NIST官方标签更全面,涵盖每个查询的大量结果,并在NIST以四分制进行标记。MS MARCO中对于一个查询通常有一个positive result。
下图展示了一致性,深度学习方法是高的,对于传统方法的文档检索一致性接近为0。
如下图,使用ORCAS数据表现得更好在MS MARCO评测设置上。ORCAS数据集和MS MARCO标签之间的相似性似乎是两个评估结果不匹配的原因之一。
5 总结
- 虽然使用ORCAS数据集似乎有助于提高系统的性能,但没有必要使用 ORCAS 数据来实现最高的 NDCG@10。
- 重拍的方法和端到端检索的方法没有大的差距。
- 使用两种评测标签,在段落检索任务中一致性较高,文档检索任务中一致性较低。
- 使用ORCAS数据集是低相关性的一个理由。