Long Document Re-ranking with Modular Re-ranker
(SIGIR2022)
早期工作是将长文档分成短小的段落快,这些块被独立地映射到标量分数或潜在向量,然后汇集到最终的相关分数中。然而,这些编码和池方法不可避免地会引入信息瓶颈:低维表示。
本文利用注意力操作和模块化 Transformer re-ranker 框架对完整的查询到文档交互进行建模。首先,文档块使用编码器模块独立编码。然后,交互模块对查询进行编码,并从查询到所有文档块表示执行联合关注。
(模块化重排序推广到文档重排序)
数据集:Robust04 和 ClueWeb09 以及MS-MARCO
基于 Transformer LM 的深度重新排序器:
将重新排序作为序列对关系预测任务。
CLS、查询、文档连接起来并输入到 Transformer LM 中。查询和文档一起通过一系列 Transformer 层、交互并产生上下文化表示。
最终分数被计算为 CLS 向量 的表示和投影向量之间的点积。
然而,这些模型有两个缺点:1)前面提到的 LM 输入长度约束,通常为 512,以及,2)查询和文档以黑盒方式纠缠在一起。前者意味着这些模型本身不支持长文档。后者使得设计一个简单的修复变得困难。
Modular Re-ranker(模块化重排器)
基于 Modular Transformer 的重新排序器,或简称为 MORES。
首先查询和文档都分别经过transformer的encoder
然后输入到交互模块 (IM) 中。
IM 是第三个 Transformer,它对查询表示 执行自注意。此外,在每一层都执行查询到文档的交叉注意。给定一个中间查询表示表示 q,交叉注意生成 q'.
查询和文档交互,复杂度与查询/文档长度成线性关系。最终的 CLS 向量被投影以生成相关性预测分数。
Modular Long Document Re-ranker
首先将长文档分成 n 块,
然后在交互模块查询与所有段交互,
然后对连接的所有块执行单个联合查询到所有块的交叉注意力操作。
这种方式查询可以和文档内所有段自由交互,获取文档信息。