综述 | 全新视角回顾基于预训练语言模型的稠密检索

最新推荐文章于 2024-05-08 13:34:43 发布

zenRRan

最新推荐文章于 2024-05-08 13:34:43 发布

阅读量623

点赞数

文章标签：语言模型人工智能深度学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247516313&idx=3&sn=01230d4565b3b0143cfcd444cd2298f9&chksm=eb53940adc241d1cf2b560720556e96057e110c8f4a0a62a182c9214a73d4d9fe06ea3b290bb&scene=126&sessionid=0

版权

每天给你送来NLP技术干货！

机构｜中国人民大学高瓴人工智能学院

来自 | RUC AI Box

本篇综述“Dense Text Retrieval based on Pretrained Language Models: A Survey”由中国人民大学和百度合作完成。

点击这里进群—>加入NLP交流群

为了支持这项研究，作者团队创建了一个参考网站，包括稠密检索研究的相关资源：（例如：论文，数据集和代码资源库），链接:

https://github.com/RUCAIBox/DenseRetrieval .

Fig: 参考网站目录截图.

文章链接：https://arxiv.org/abs/2211.14876.

论文概要

Fig: The illustration for the overall pipeline of an information retrieval system.

本篇综述从架构（architecture）、训练（training）、索引（indexing）和整合（integration）四个主要方面组织了相关研究，系统地回顾了基于预训练语言模型（PLM）的稠密检索的最新进展，文章还讨论了其在下游任务的应用，以及部分进阶主题。本篇综述尽量完整地涵盖了这一题目下的近期工作，引用了300余篇经典及最新的文献，为相关方向的研究者了解此领域提供全面、实用的参考。

论文简介

近四年来，大量基于PLM的稠密检索研究被提出，在很大程度上提高了现有基准数据集的性能标准。首先，PLM出色的文本表示能力使文本检索系统能够回答通过简单的词汇匹配无法解决的困难查询。其次，大规模有标注的检索数据集(例如MS MARCO和Natural Questions)的出现使得训练（或微调）高效的文本检索PLM变得可行。

Table: A detailed list of different dense retrieval methods in the literature with detailed configurations.

考虑到稠密检索近年来取得的重要进展，本研究旨在对现有的文本检索方法进行系统回顾。特别是基于PLM的稠密检索方法。本研究以第一阶段的检索（召回）为核心，广泛讨论构建稠密检索系统的四个相关方面，包括：

架构（architecture，如何设计稠密检索器的网络架构）
训练（training，如何使用特殊的训练策略优化稠密检索器）
索引（indexing，如何设计高效的数据结构索引和检索稠密向量）
集成（integration，如何集成和优化一个完整的检索pipeline）

研究广泛讨论了构建稠密检索系统的各种有用的主题或技术，旨在为研究者和工程师提供这一研究方向的全面、实用的参考。

与以往研究不同的是，本篇综述的研究有以下三个新特点:

首先，研究专注于基于PLM的稠密检索研究，并将相关研究从架构、训练、索引和集成四个方面进行了新的分类。
其次，研究特别关注了稠密检索的实用技术，广泛讨论了训练检索模型、建立稠密索引和优化检索pipeline的方法。
第三，研究介绍了稠密检索的最新进展，并详细讨论了几个新兴的研究主题（例如，基于模型的检索和表示增强的预训练）。

参考文献

[1] Zhao, Wayne Xin, et al. "Dense Text Retrieval based on Pretrained Language Models: A Survey." arXiv preprint arXiv:2211.14876 (2022).

📝论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务

统计机器学习方法 for NLP：基于CRF的词性标注

统计机器学习方法 for NLP：基于HMM的词性标注

点击这里进群—>加入NLP交流群

zenRRan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
综述 | 全新视角回顾基于预训练语言模型的稠密检索

每天给你送来NLP技术干货！©作者｜王禹淏机构｜中国人民大学高瓴人工智能学院来自 | RUC AI Box本篇综述“Dense Text Retrieval based on Pretrained Language Models: A Survey”由中国人民大学和百度合作完成。点击这里进群—>加入NLP交流群为了支持这项研究，作者团队创建了一个参考网站，包括稠密检索研究的相关资源：（例如...
复制链接

扫一扫