多阶段重排序架构与BERT模型详解
1. 多阶段重排序架构概述
在文本排序领域,多阶段重排序架构具有重要意义。一系列对比和消融实验证明了monoBERT在不同条件下的有效性,包括用简单模型变体替代BERT的情况。之后,有大量研究探讨了BERT的工作原理。
应用BERT(以及其他预训练变压器模型)执行下游任务的基本方法是,先使用预训练模型,然后利用目标任务的标记数据进一步微调。不过,这个过程更为复杂,有许多技术广泛适用于基于变压器的模型,可用于各种任务。
BERT在文本排序中存在一个关键限制,即无法处理长输入序列,因此难以对长度超过模型设计输入的文本进行排序,如新闻文章、科学论文和网页等“全文”文档。研究人员已提出多种解决方案来克服这一挑战,例如Birch、BERT–MaxP和CEDR,它们大致处于同一时期,代表了旨在处理更长文本的基于变压器的神经排序模型的“第一波”。
在介绍了多个基于BERT的排序模型后,我们将讨论这些模型的架构背景。简单的检索 - 重排序方法可以细化为具有重排序器管道的多阶段排序架构。最后,有许多努力试图超越BERT,构建更快(即实现更低推理延迟)、更好(即获得更高排序效果)或在效果和效率之间实现有趣权衡的排序模型。
2. BERT的高级概述
BERT(Bidirectional Encoder Representations from Transformers)是一个用于为英文输入序列生成上下文嵌入的神经网络模型,还有一个多语言变体(通常称为“mBERT”),可以处理100多种不同语言的输入。这里我们主要关注单语言英文模型。
BERT的输入是一系列标记(更具体地说,是从这些标