文章目录
前记
最近忙着秋招(主要是懒),好像已经很久没写博客了。
最近在看一些检索相关的论文,顺便记录下吧。
概述
这篇论文将深度学习应用到Ad-hoc Retrieval领域。Ad-hoc Retrieval和之前介绍过的几篇文本匹配论文还是有区别的。之前几篇面向的主要是paraphrase identification,natural language inference,question answering等问题,这些问题主要考虑semantic matching,而Ad-hoc Retrieval主要考虑relevance matching。这两种匹配的区别下面会展开介绍。
论文主要使用了匹配直方图映射(matching histogram mapping),前馈匹配网络,词项门控网络(term gating network)三种结构。
论文贡献点
- 指出语义匹配(semantic matching)和关联匹配(relevance matching)的三个主要区别;
- 提出一种针对Ad-hoc retrieval领域的深度相关匹配模型DRMM;
- 对基准集合上最先进的检索模型进行了严格的比较,分析了现有深度匹配模型的不足和DRMM的优点。
语义匹配和关联匹配比较
-
语义匹配(semantic matching):
识别语义并推断两个文本片段的关系。
常见应用场景:paraphrase identification,question answering,automatic conversation特点:两个文本片段长度相似,一般都是一句话。
三个匹配要素:
1.相似匹配标志:捕捉两个文本中词,短语,句子的语义相似/相关关系。
2.组合语义:要考虑语法结构,而不是只当做词袋模型。
3.全局匹配需求:语义匹配任务文本长度通常比较有限,所以更多考虑全局匹配结果。 -
关联匹配(relevance matching):
在Ad-hoc retrieval领域,需要判断一篇文档与给定的一个查询时候相关。
可以看出,关联匹配时query通常很短,有时只有几个关键词。而要查询的文档通常比较长,包含多个句子。三个匹配要素:
1.精确匹配标志:query和doc中词项精确匹配。
2.查询词项重要性:用户的查询语句中不同词具有不同的重要性。
3.多样匹配需求(Diverse matching requirement:):因为在检索时文档通常很长,包含很多不同信息。query可能只与文档部分存在相关关系