ICLR 2020 | 可提速3000倍的全新信息匹配架构（附代码复现）

最新推荐文章于 2024-06-08 09:59:05 发布

PaperWeekly

最新推荐文章于 2024-06-08 09:59:05 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105320745

版权

本文介绍了一种名为Poly-encoder的新型信息匹配架构，它融合了Bi-encoder的速度优势和Cross-encoder的准确性。Poly-encoder通过产生多个编码向量，提高了匹配质量，同时保持了快速检索的特性。实验结果显示，Poly-encoder在多项任务上表现出色，检索速度比Cross-encoder快约3000倍。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜周树帆

学校｜上海交通大学硕士生

研究方向｜自然语言处理

今天聊一篇 FAIR 发表在 ICLR 2020 上的文章：Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring。

论文标题：Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring

论文来源：ICLR 2020

论文链接：https://arxiv.org/abs/1905.01969

和一些花里胡哨但是没有卵用的论文不同，这篇文章可谓大道至简。该文用一种非常简单但是有效的方式同时解决了 DSSM 式的 Bi-encoder 匹配质量低的问题和 ARC-II、BERT 等交互式的 Cross-encoder 匹配速度慢的问题。

背景

众所周知，常见的搜索、检索式问答、自然语言推断等任务，它们本质上都是一种相关性匹配任务：给定一段文本作为 query，然后匹配出最为相关的文档或答案然后返回给用户。

目前主流的文本相关性匹配架构有两大类：以 DSSM 为代表的 Siamese Network 架构、以及形如 ARC-II、ABCNN 或 BERT（基于 Self-Attention）的交互式匹配架构。

1.1 Siamese Network

如图 1 所示，Siamese Network 式（本篇文章又称其为 Bi-encoder）的匹配方案会利用 2 个网络分别将 query 和 candidates 编码成和，最后再通过一个相关性判别函数（通常为 cosine）计算两个 vec 之间的相似度。

这种方案的最大特点就是 query 和 candidates 直到最后的相关性判别函数时才发生交互，所以会对模型的匹配性能产生一定的影响。

但是这种完全独立的编码方式使得我们可以离线计算好所有 candidates 的向量，线上运行时只需计算 query 的向量然后匹配已有向量即可。总的来说，这种方案匹配速度极快，但是匹配质量不能达到最佳。

▲ 图1. Siamese Network（本篇论文又称其为Bi-encoder）

1.2 交互式匹配

如图 2 所示，交互式匹配（本文记作 Cross-encoder）的核心思想是则是 query 和 candidates 时时刻刻都应相互感知，相互交融，从而更深刻地感受到相互之间是否足够匹配。

早期的交互方案如 ARC-II、ABCNN 等会计算和之间的word embedding相似度、Q、C 分别过 RNN 之后的、之间的相似度，最后再用一些 CNN 之类的方法整合结果，然后用 MLP 做二分类判别是相关还是不相关。

▲ 图2. 交互式匹配示意图(图中为ARC-II)

另外在 BERT 兴起之后，如图 3 所示般将 query 和 candidate 拼成一句话，然后利用 self-attention 完成 query 和 candidate 之间的交互的模型也大量涌现，并且取得了非常显著的成果。本篇论文实现的 Cross-encoder 也是基于图 3 的架构。

相较于 Siamese Network，这类交互式匹配方案可以在 Q 和 C 之间实现更细粒度的匹配，所以通常可以取得更好的匹配效果。

但是很显然，这类方案无法离线计算 cand