【论文阅读】Pre-training Methods in Information Retrieval

前言

Abs

  • 本文致力于提供一个IR领域的预训练方法的系统回顾
  • 介绍了引用于IR系统不同组成的 PTMs,包括检索,重排序,和其他组成

1.Intro

很多不同的排序模型被提出,包括:vector space model,probabilistic ranking model,learning to rank(LTR)model。

PTMs加剧了NLP范式的迁移:先用自监督语言建模进行预训练,然后将预训练模型通过引入小部分额外参数与特定任务目标的 fine-tune 来用于子任务。我们对应用在 IR 上的 PTMs 进行全面回顾,包括预训练 word embdding的用法,还有预训练 transformer 的应用

2.Background

本节以分层的方式描述IR的基本概念和定义,并简要回顾IR中的PTMs。

2.1.A Hierarchical View of IR

从核心问题->框架->系统。使用 Q , D , F Q,D,F Q,D,F 来表示查询集合,文档集合,检索函数, q , d , f q,d,f q,d,f 来代表里面的个例。 r e l rel rel 代表相似度评估模型, R q R_q Rq 代表对查询 q q q 返回的搜索结果。

在这里插入图片描述

2.1.1.The Core Problem View of IR

IR的基本目标就是给用户提供他们信息需求相关的信息,因此,最基础的问题就是 q q q d d d 相似程度的估计。三类典型的模型:

  • Classical retrieval models:核心思想是利用精确匹配信号来设计相似评分函数,使用一些容易计算的数据(term frenquency,document length等)。这些模型可能会遭遇词汇不匹配问题,由于硬匹配和精确匹配需求
  • Learning to Rank(LTR)Models:核心思想是使用有监督的机器学习方法,使用手工制作的特征来解决排序问题。有效特征包括:基于查询的特征(类型,长度等),基于文档的特征(PageRank,点击量等),查询-文档匹配特征(共同出现次数,BM25,修正距离等)。基于 loss function 中考虑的文档的数目,LTR模型可以分成三类:
    • Pointwise:只考虑单个文档,将检索为题当做分类/回归问题
    • Pairwise:考虑成对文档
    • Listwise:考虑整个文档列表
  • Neural Retrieval Models:核心思想是利用神经网络来抽象相似度信号来进行相似度估计。可以分成三类:
    • Representation-focused models:希望独立学习到查询和文档的密集向量表示,使用 cos,内积的方式计算相似度
    • Interaction-focused models:捕捉查询和文档之间的交互。使用一个相似矩阵 A A A A i j A_{ij} Aij 代表第 i i i 个查询 term embedding和第 j j j 个文档 term embedding之间的相似性。在此矩阵的基础上使用不同的方法来提取特征,用于产生 query-document 相关分数
    • Mixed models:将上面两种方式结合起来

2.1.2.The Framework View of IR

在这里插入图片描述

Document retriever更关注效率,因为要从一大堆文档中进行检索。Re-ranker分为 early- stage re-ranker 和 later-stage re-ranker。二者相比,前者更关注效率,但是相对于 retriever 来说更关注效果。后面一个需要考虑的文档更少,因此更关注效果。根据 re-ranker 的个数,检索过程可以被分成以下方式:

  • Single-stage Retrieval(n=0):由初始检索收回的排序列表不经过任何重排序器而呈现给用户。用于早起的检索框架(boolean retrieval),和精确匹配就足够用的场景
  • Two-stage Retrieval(n=1):相对上面,加了一个 re-ranker。在一阶段检索没有考虑到的特征,比如多模态特征,用户行为和知识图收集,也会在重排序阶段考虑
  • Multi-stage Retrieval(n >= 2):不同的重排序器可能采用不同的结构,并利用不同的信息源。

2.1.3.The System View of IR

在这里插入图片描述

  • Symbolic search system:需要规则来构建文档解析器,该解析器根据各种标准对文档进行索引、筛选和排序,然后将这些数据转换为系统可以理解的符号。因此得名“symbolic search”。symbolic search系统对文档进行索引,建立倒排索引,倒排索引由两部分组成:a dictionary,postings。优点是检索速度快,提供的结果可解释。缺点是只能使用一种语言,需要很高的存储花费
  • Neural search system:symbolic search更关注精确匹配,neural search更关注语义匹配。不用构造各种规则,而是使用预训练模型来获得文档的低维密集表示。文档索引被称作 verctor index。优点是对噪音更鲁棒,且容易扩展。缺点是不好解释,且需要很多训练数据。

2.2.A Brief Overview of PTMs in IR

因为创建大规模的带标记数据集是费时费力的,但是创建大规模不带标记的数据集更容易,因此PTMs很受欢迎。工作流程为:1)在未标记数据集上使用 PTMs 学习文本好的表示或者文本对之间更好的交互。2)学习到的表示/交互被 fine-tune 并且用于下游任务。根据下游任务目标,有不同的 fine-tune 方式:Full fine-tuning,Partial fine-tuning,Freezing the weights。

2.2.1.Word Embedding Methods

embedding是一种 items 在新空间中的表示,保存了这些 items 的性质和他们之间的关系。构造的embedding的目标是让具有相似上下文的词在新空间中出现在相近的位置。经典的 word embedding方法可以分成以下几类:

  • Word2vec:通过考虑一个固定窗口内的邻居来学习一个 term 的 embedding。一共有两种结构:
    • skip-gram:给定一个中心词,模型学习预测在其周围的固定尺寸窗口内最可能出现的词
    • continuous bag-of-words(CBOW):与上面相反,模型基于上下文单词来预测中心词
    • 二者都是带有一个隐藏状态的浅层神经模型,因为 skip-gram 从相同的文本窗口创建更多的训练样本,因此在训练阶段它的训练速度比CBOW模型慢
  • GloVe:为词的表示产生全局向量。不同于word2vec方法中单个 term-neighbor 对的训练,GloVe对语料库中聚合的全局词-词共现统计数据进行训练。与应用前向神经模型不同,GloVe构建了一个词-上下文矩阵,也就是说,对于每个“词”,我们在某个“上下文”中看到这个词的频率可以计算出来。之后使用矩阵分解技术,来产生一个低维的矩阵(embedding matrix),其中每一行对应一个词的向量表示。
  • Paragraph2vec:为一个通用的文本块创建 embedding,比如:句子,段落,文档。作为 Word2vec的扩展,Paragraph2vec将另一个代表段落ID的向量添加到了输入中

Word embedding在 IR 中的几个作用

  • 用来优化倒排索引中 term 加权方案
  • 用来更好地估计查询与文档间的匹配等级
  • 有利于关键的 IR 相关任务,比如:query suggestion,document summarization

2.2.2.Transformer-based Methods

Word embedding无法处理词的上下文依赖和一词多义的问题。

GPT和BERT是两个典型的基于 transformer 的预训练方法。

  • GPT使用自回归语言建模作为预训练目标,目标是最大化所有单词在其对应的前面的单词的上下文中的条件概率。因此GPT很适合生成任务
  • BERT采用自编码语言建模作为预训练目标,更关注语言理解和辨别任务。使用两个预训练目标:1)Masked language modeling;2)Next sentence prediction

基于 Transformer方法在 IR 中的几个作用

  • 被用来估计查询和文档之间的相似程度
  • 根据目标的阶段(检索/重排序),考虑效率和效果之间的平衡
  • 不同的基于 transformer 的方法被定制成不同组成,比如 Query parser,Doc Parser&Encoder,Retrieval and Rerank。

在这里插入图片描述

Pre-training Methods Applied in the Retrieval Component

3.1.Basic Model Structure

从表示类型和索引模式来看,基于PTMs的检索模型可分为三类:

  • 稀疏检索模型:通过获得语义增强稀疏表示,使用倒排索引来进行索引提升检索
  • 密集检索模型:将输入文本映射成独立的密集表示,并且使用ANN搜索算法
  • 混合检索模型:建立稀疏和密集检索模型来获得两方面的优点

3.1.1.Sparse Retrieval Models

通过在传统 term-based 方法上加强 BOW 表示或者将输入文本映射到 “latent word”空间来提升检索效果。 这种架构下,查询和文档都被表示成高维稀疏 embedding,因此还可以用倒排索引。在稀疏检索模型上使用 PTMs 的工作可以分成四类:

在这里插入图片描述

  • Term Re-weighting:通过上下文语义信息计算 term 权重,而不是通过 TF
  • Document Expansion:除了显式预测 term 权重,使用语义相关的 term 来增强文档也是一种方法
  • Expansion+Re-weighting:在整个词汇表中学习 term 权重,而不是在文档中存在的 terms 上
  • Sparse Representation Learning:与上面的在显式的 symbolic space 中提升文档表示的方法不同,稀疏表示学习方法在 latent word space中为查询和文档学习稀疏表示

3.1.2.Dense Retrieval Models

使用成对的 encoder 框架,为查询和文档学习低维密集向量。学习到的向量通过近似最近邻(ANN)搜索算法来支持在线搜索。

密集检索模型通常由两个为查询和文档独立学习密集表示的encoder组成,之后使用一个简单的匹配函数计算相似分数。

在这里插入图片描述

  • Single-vector Representation:整个输入文本被表示成一个单一embedding
  • Multi-vector Representation:为查询和文档学习多个向量
  • Hybrid Retrieval Models:稀疏检索模型采用(latent)词作为表示单元,可以基于精确匹配信号来计算匹配分数。另一方面,密集检索为文档和查询学习密集 embedding,相似度通过 soft matching signals 来计算。混合检索为查询和文档同时学习稀疏和密集向量,通过 Merger 计算最终相关性得分

在这里插入图片描述

3.2.Advanced Topics

3.2.1.Negative Sampling Strategy

一般来说,hard negative 样本被认为是提供有用信息的负样本,因为他们能提高模型区分相似样本的能力。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长命百岁️

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值