综述 | 全新视角回顾基于预训练语言模型的稠密检索

每天给你送来NLP技术干货!


1f40a8193ce05c516deca2efd402186e.png

© 作者|王禹淏

机构|中国人民大学高瓴人工智能学院

来自 | RUC AI Box

本篇综述“Dense Text Retrieval based on Pretrained Language Models: A Survey”由中国人民大学和百度合作完成。

点击这里进群—>加入NLP交流群

为了支持这项研究,作者团队创建了一个参考网站,包括稠密检索研究的相关资源:(例如:论文,数据集和代码资源库),链接: 

https://github.com/RUCAIBox/DenseRetrieval .

02d0c151e26c5f06212d08e03ede335f.png

Fig: 参考网站目录截图.

文章链接:https://arxiv.org/abs/2211.14876.

bd8a0782d5d7db64d8f99f05784f1052.jpeg 论文概要

c73a72e2536e9d7a220f98b2bea16c6d.jpeg

15135f7aa6cb5203124f800e37848878.png

Fig: The illustration for the overall pipeline of an information retrieval system.

本篇综述从架构(architecture)、训练(training)、索引(indexing)和整合(integration)四个主要方面组织了相关研究,系统地回顾了基于预训练语言模型(PLM)的稠密检索的最新进展,文章还讨论了其在下游任务的应用,以及部分进阶主题。本篇综述尽量完整地涵盖了这一题目下的近期工作,引用了300余篇经典及最新的文献,为相关方向的研究者了解此领域提供全面、实用的参考。

5d138720be7ba3625dd646324db89bc1.jpeg 论文简介

46757111b0724ac7f66674cba391ae61.jpeg

近四年来,大量基于PLM的稠密检索研究被提出,在很大程度上提高了现有基准数据集的性能标准。首先,PLM出色的文本表示能力使文本检索系统能够回答通过简单的词汇匹配无法解决的困难查询。其次,大规模有标注的检索数据集(例如MS MARCO和Natural Questions)的出现使得训练(或微调)高效的文本检索PLM变得可行。

7732061e61097e9184c9204a5d156985.jpeg

Table: A detailed list of different dense retrieval methods in the literature with detailed configurations.

考虑到稠密检索近年来取得的重要进展,本研究旨在对现有的文本检索方法进行系统回顾。特别是基于PLM的稠密检索方法。本研究以第一阶段的检索(召回)为核心,广泛讨论构建稠密检索系统的四个相关方面,包括:

  • 架构(architecture,如何设计稠密检索器的网络架构)

  • 训练(training,如何使用特殊的训练策略优化稠密检索器)

  • 索引(indexing,如何设计高效的数据结构索引和检索稠密向量)

  • 集成(integration,如何集成和优化一个完整的检索pipeline)

研究广泛讨论了构建稠密检索系统的各种有用的主题或技术,旨在为研究者和工程师提供这一研究方向的全面、实用的参考。

与以往研究不同的是,本篇综述的研究有以下三个新特点:

  • 首先,研究专注于基于PLM的稠密检索研究,并将相关研究从架构、训练、索引和集成四个方面进行了新的分类。

  • 其次,研究特别关注了稠密检索的实用技术,广泛讨论了训练检索模型、建立稠密索引和优化检索pipeline的方法。

  • 第三,研究介绍了稠密检索的最新进展,并详细讨论了几个新兴的研究主题(例如,基于模型的检索和表示增强的预训练)。

e07164f25cc10e522b82654f8312bfbf.jpeg 参考文献

a597d7a71c1e7804bbd147f87f86cfa1.jpeg

[1] Zhao, Wayne Xin, et al. "Dense Text Retrieval based on Pretrained Language Models: A Survey." arXiv preprint arXiv:2211.14876 (2022).


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral  | PRVR: 新的文本到视频跨模态检索子任务

统计机器学习方法 for NLP:基于CRF的词性标注

统计机器学习方法 for NLP:基于HMM的词性标注


点击这里进群—>加入NLP交流群

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值