从EMNLP 2022速览信息检索领域最新研究进展

本文概述了EMNLP2022会议中关于信息检索的12篇论文,涉及中文段落检索数据集DuReader、双塔模型的泛化性增强、面向检索的预训练方法RetroMAE、对抗分布转移的稠密检索模型COCO-DR、对话搜索场景下的稠密检索技术等,展示了自然语言处理在信息检索领域的最新进展。
摘要由CSDN通过智能技术生成

每天给你送来NLP技术干货!


© 作者|任瑞阳

机构|中国人民大学高瓴人工智能学院

来自 | RUC AI Box

本文梳理并介绍了自然语言处理顶会EMNLP 2022(主会长文)中信息检索领域的12篇论文,速览信息检索领域最新的研究进展,重点关注一阶段检索(召回)阶段相关的研究工作。

点击这里进群—>加入NLP交流群

1、DuReader: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.357.pdf

作者:Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, QiaoQiao She, Jing Liu, Hua Wu, Haifeng Wang

本文提出了一个中文的段落检索数据集DuReader,该数据集的数据包括了百度搜索引擎中的9万条查询和800万个段落。为了解决开发集和测试集中的假负例问题,作者请了内部数据团队来人工检查并重标注了多个检索模型返回的头部检索结果;为了降低测试集信息的数据泄露,作者使用了一个现有的查询匹配模型来识别并移除训练集中与开发集、测试集中相似的查询。

8837c8881a54c47ed4eea6deab9bbd7c.png


2、Large Dual Encoders Are Generalizable Retrievers

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.669.pdf

作者:Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernandez Abrego, Ji Ma, Vincent Zhao, Yi Luan, Keith Hall, Ming-Wei Chang, Yinfei Yang

本文针对双塔模型(dual-encoder)缺乏在其他领域的泛化性的问题,提出增大模型的参数规模,以及多阶段训练的方法来提高双塔模型的领域泛化性。其在多个检索任务,尤其是跨领域泛化性上带来了显著的提升,作者还发现该方法具有很高的数据效率。

63dddfa8ad9cdc4c4b10c946d34b47d2.png


3、RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.35.pdf

作者:Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao

本文针对稠密检索提出了一种高效的面向检索的预训练方法。该预训练方法基于掩码自动编码器(Masked Auto-Encoder),对于输入文本,使用较大的解码器掩码率(50∼90%),而对编码器使用常用的15%掩码率,任务目标是重建输入文本。实验证明所提出的方法取得了强大的检索性能,同时也具有较强的跨领域泛化能力。

31d6b2e7b815a48ede768db0ba2d50d1.png

4、COCO-DR: Combating the Distribution Shift in Zero-Shot Dense Retrieval with Contrastive and Distributionally Robust Learning

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.95.pdf

作者:Yue Yu, Chenyan Xiong, Si Sun, Chao Zhang, Arnold Overwijk

本文提出对抗源领域训练任务和目标领域场景间的文档分布变化,来提高稠密检索模型跨领域泛化能力。作者使用持续对比学习在目标领域语料库上对模型进行持续预训练,另外,使用隐式分布式鲁棒优化(implicit Distributionally Robust Optimization)对来自不同源领域的查询类进行重新加权,提高模型在微调期间对出现率低的查询的鲁棒性。

701adc66d4be9f3121b80220083cf0c5.png


5、ConvTrans: Transforming Web Search Sessions for Conversational Dense Retrieval

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.190.pdf

作者:Kelong Mao, Zhicheng Dou, Hongjin Qian, Fengran Mo, Xiaohua Cheng, Zhao Cao

本文研究了对话搜索场景下的稠密检索。由于大规模真实的对话搜索会话和标注数据很难获得,而稠密检索模型的训练往往依赖于大规模的标注数据,作者提出了一种数据增强方法,可以自动将网络搜索会话转换成对话搜索会话,来缓解数据稀缺的问题。

54bd6a360b1ff5e2fe993f84ae32cb1c.png


6、Explicit Query Rewriting for Conversational Dense Retrieval

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.311.pdf

作者:Hongjin Qian, Zhicheng Dou

本文同样对对话搜索场景下的稠密检索进行研究。在对话搜索场景下,查询可能具有上下文相关的特性,即部分词在其它内容中出现而省略。针对该特性,本文作者提出在统一框架下对查询进行重写和上下文建模,使用查询重写的监督信号来对上下文建模进行进一步增强。

48023af2bb52c0400cc412391d7fb294.png


7、Pseudo-Relevance for Enhancing Document Representation

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.800.pdf

作者:Jihyuk Kim, Seung-won Hwang, Seoho Song, Hyeseon Ko, Young-In Song

本文主要研究如何在稠密文档检索中增强双塔模型的文档表示。作者基于ColBERT的模型架构进行了改进,在不影响其效果的情况下,降低了其中多向量表示的大小,并使用查询日志进行监督学习。所提出的方法最高将延迟和内存占用分别减少了8倍和3倍。

3a7e49635e8eb53147a3712e92f11d58.png


8、Recovering Gold from Black Sand: Multilingual Dense Passage Retrieval with Hard and False Negative Samples

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.730.pdf

作者:Tianhao Shen, Mingtong Liu, Ming Zhou, Deyi Xiong

本文主要研究多语言稠密检索中的负采样问题。作者提出多语言强负例采样增广,通过对查询和现有的强负例进行插值,来合成新的强负例;使用多语言负例缓存队列来存储每种语言先前批次中的负例,以增加用于寻来看的多语言负例的数量;提出一个轻量化的自适应假负例筛选器,利用伪标签区分假负例,并转化为用于训练的正例。

96c9631105d1c82cd99e0d4367a656e4.png


9、CodeRetriever: Large-scale Contrastive Pre-training for Code Search

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.187.pdf

作者:Xiaonan Li, Yeyun Gong, Yelong Shen, Xipeng Qiu, Hang Zhang, Bolun Yao, Weizhen Qi, Daxin Jiang, Weizhu Chen, Nan Duan

本文主要研究代码检索的问题,提出通过大规模的代码文本对比学习预训练,来学习函数级别的代码语义表示。作者采用了两种对比学习方案,单模态对比学习和双模态对比学习,分别对文档-函数名称的语义关系和文档-代码内联注释的语义关系进行学习,并利用大规模代码语料库进行预训练。

2200865660fe0fea404f7201f771b27c.png


10、Exploring Representation-Level Augmentation for Code Search

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.327.pdf

作者:Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang

本文针对现有代码检索工作中,源代码数据增强方法通常需要额外的处理成本的问题进行了探索。作者提出了一种统一现有方法的表示级别增广的通用格式,并基于通用格式提出了三种新的增强方法(线性外推、二进制插值和高斯缩放)。此外,作者从理论上分析了所提出的增强方法相对于传统代码搜索对比学习方法的优势。

1b9de35f3ec88974988c864c1bba1728.png


11、Efficient Document Retrieval by End-to-End Refining and Quantizing BERT Embedding with Contrastive Product Quantization

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.54.pdf

作者:Zexuan Qiu, Qinliang Su, Jianxing Yu, Shijing Si

文档检索往往依赖于语义哈希技术,而现有的语义哈希方法大多建立在传统的TF-IDF特征之上,并没有包含很多关于文档的语义信息。本文提出利用BERT表示基于乘积量化实现高效检索,具体地,为每个文档分配一个来自代码册的实型代码字以具有更多语义信息,而不是语义哈希中的二进制代码。作者还基于互信息最大化来提高代码字的表示能力,更准确地对文档进行量化。

8bf86e3742d91cfed9585a250d371652.png


12、Generative Multi-hop Retrieval

文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.92.pdf

作者:Hyunji Lee, Sohee Yang, Hanseok Oh, Minjoon Seo

本文主要研究多条场景下使用生成式的方法实现检索。作者基于现有的自回归的实体链接工作进行了扩展,从生成短实体变为生成长的文本序列,使用编码器-解码器的模型架构,让查询和文档获得更充分的交互。该方法使用了前缀树的数据结构,让模型解码的序列为语料库内的文本,并提出了LM momorization和multi-hop memorization两个策略让模型能更好地对语料库进行记忆。

eef7039bef2bc690ffd77909b58d1e1b.png

最近文章


深入理解Pytorch中的分布式训练


点击这里进群—>加入NLP交流群
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
emnlp2022是自然语言处理领域的一次重要会议,其官网是指为了宣传、组织和指导本次会议而建立的专门网站。emnlp2022官网旨在向全球的学术界和工业界展示本次会议的议程、主题、地点、时间等重要信息。通过官网,参会者可以获取到会议日程安排、主题演讲人信息以及各个会场的具体位置等相关资讯,以便做好参会准备。 emnlp2022官网的内容一般会包括以下几个方面:首先是会议的基本信息,包括会议名称、介绍、时间和地点等,使参会者能够了解会议的背景和基本情况。其次是会议议程,包括会议安排、主题演讲、分论坛等具体活动的时间和地点,以及各个活动的详细日程安排。此外,官网还会提供相关的注册、投稿、参会费用等信息,以便参会者进行报名和缴费。 emnlp2022官网还可以提供与会议内容相关的资源和工具,如论文集、演讲稿、演示视频等,方便参会者和其他学者深入了解会议的研究成果和进展。官网还可能设置在线论坛或社交媒体链接,使参会者和学术界同行之间能够进行交流和互动,增进合作与沟通。 总之,emnlp2022官网是该次会议的重要宣传平台,通过官网参会者可以获取到会议的重要信息、日程安排以及相关资源,为参会者提供便利,使会议更加规范、有序地进行,并促进学术界之间的交流与合作。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值