A Deep Relevance Matching Model for Ad-hoc Retrieval阅读笔记

最新推荐文章于 2022-12-10 10:44:33 发布

Leokb24

最新推荐文章于 2022-12-10 10:44:33 发布

阅读量1.3k

点赞数

分类专栏：文本匹配论文阅读文章标签：检索 ad-hoc

本文链接：https://blog.csdn.net/leo_95/article/details/100878451

版权

这篇论文将深度学习应用于Ad-hoc Retrieval领域，提出DRMM模型，包括匹配直方图映射、前馈匹配网络和词项门控网络。通过对比语义匹配和关联匹配，强调了在Ad-hoc检索中精确匹配、词项重要性和多样匹配需求的重要性。实验在Robust-04和ClueWeb-09-Cat-B数据集上进行，使用MAP、nDCG@20和P@20作为评价指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前记

最近忙着秋招（主要是懒），好像已经很久没写博客了。
最近在看一些检索相关的论文，顺便记录下吧。

概述

这篇论文将深度学习应用到Ad-hoc Retrieval领域。Ad-hoc Retrieval和之前介绍过的几篇文本匹配论文还是有区别的。之前几篇面向的主要是paraphrase identification，natural language inference，question answering等问题，这些问题主要考虑semantic matching，而Ad-hoc Retrieval主要考虑relevance matching。这两种匹配的区别下面会展开介绍。

论文主要使用了匹配直方图映射（matching histogram mapping），前馈匹配网络，词项门控网络（term gating network）三种结构。

论文贡献点

指出语义匹配（semantic matching）和关联匹配（relevance matching）的三个主要区别；
提出一种针对Ad-hoc retrieval领域的深度相关匹配模型DRMM；
对基准集合上最先进的检索模型进行了严格的比较，分析了现有深度匹配模型的不足和DRMM的优点。

语义匹配和关联匹配比较

语义匹配（semantic matching）：
识别语义并推断两个文本片段的关系。
常见应用场景：paraphrase identification，question answering，automatic conversation

特点：两个文本片段长度相似，一般都是一句话。

三个匹配要素：
1.相似匹配标志：捕捉两个文本中词，短语，句子的语义相似/相关关系。
2.组合语义：要考虑语法结构，而不是只当做词袋模型。
3.全局匹配需求：语义匹配任务文本长度通常比较有限，所以更多考虑全局匹配结果。
关联匹配（relevance matching）：
在Ad-hoc retrieval领域，需要判断一篇文档与给定的一个查询时候相关。
可以看出，关联匹配时query通常很短，有时只有几个关键词。而要查询的文档通常比较长，包含多个句子。

三个匹配要素：
1.精确匹配标志：query和doc中词项精确匹配。
2.查询词项重要性：用户的查询语句中不同词具有不同的重要性。
3.多样匹配需求(Diverse matching requirement:)：因为在检索时文档通常很长，包含很多不同信息。query可能只与文档部分存在相关关系

最低0.47元/天解锁文章