深度学习-生成式检索-论文速读-2024-09-14
前言:
生成式检索(Generative Retrieval, GR)是一种结合了生成模型和检索系统的人工智能技术方法。这种方法在处理信息检索任务时,不仅依赖于已有数据的检索,还能生成新的、相关的信息或数据来满足查询需求。相对传统基于倒排链的稀疏检索(Sparse Retrieval, SR) 和采用向量化的稠密检索(Dense Retrieval, DR), 生成式检索GR能够突破现有搜推系统多级链路的固有瓶颈限制,END TO END的方式直接生成最终的检索结果,因而在近年来成为研究热点。
1. Transformer Memory as Differentiable Search Index, NIPS, 2022
Advances in Neural Information Processing Systems 35 (2022): 21831-21843.
作为可微搜索索引的Transformer记忆
摘要
本文提出了一种新的信息检索范式——可微搜索索引(Differentiable Search Index, DSI),它使用单一的Transformer模型将查询文本直接映射到相关的文档标识符(docids)。DSI模型在训练时学习将文档内容与相应的docid关联起来,在检索时根据输入的查询返回相关docid。实验表明,DSI在适当的设计选择下,显著优于双编码器模型等强基线,并且在零样本设置下展现出强大的泛化能力。
创新点
- 可微搜索索引(DSI):提出了一种新的检索范式,将检索过程完全集成在单个Transformer模型中,简化了整个检索流程。
- 端到端检索:DSI模型可以直接从文本查询映射到docid,无需额外的索引构建步骤。
- 零样本学习能力:DSI在没有看到特定查询的情况下也能表现出色,这表明模型具有很好的泛化能力。
算法模型
- DSI模型:使用预训练的Transformer模型,通过序列到序列(seq2seq)学习系统直接将查询映射到相关的docid。
- 索引策略:模型在训练阶段学习将文档内容与docid关联,实现索引功能。
- 检索策略:在给定查询的情况下,模型使用自回归生成的方式返回候选docid的排名列表。
实验效果
- 数据集:使用Natural Questions (NQ) 数据集进行实验,该数据集包含307K个查询-文档训练对和8K个验证对。
- 性能指标:主要使用Hits@N(N=1, 10)作为评价指标。
- 结论:
- DSI在小规模数据集上(NQ10K)的Hits@1性能提升了20多个百分点,从12.4%提升到33.9%。
- 在更大规模的数据集上(NQ320K),DSI的性能提升更加显著,尤其是在使用大型模型时。
- 在零样本设置下,DSI的Hits@1性能比BM25基线提高了14个百分点。
推荐阅读指数:
★★★★☆
推荐理由
这篇文章提出了一种创新的信息检索方法,通过将检索过程集成在单个Transformer模型中,简化了传统的检索流程。DSI模型不仅在标准的训练设置下表现优异,还在零样本设置下展现出了强大的泛化能力,这对于实际应用中快速适应新查询具有重要意义。此外,文章对DSI的不同变体进行了详细的分析和比较,为未来在这一领域的研究提供了宝贵的参考。对于从事信息检索、自然语言处理和机器学习的研究者和工程师来说,这篇文章提供了新的视角和方法论,值得一读。
2. A Neural Corpus Indexer for Document Retrieval, NIPS, 2022
用于文档检索的神经语料库索引器
摘要
当前最先进的文档检索解决方案主要遵循索引检索范式,其中索引难以直接针对最终检索目标进行优化。本文旨在展示一个端到端的深度神经网络,统一训练和索引阶段可以显著提高传统方法的召回性能。为此,提出了神经语料库索引器(Neural Corpus Indexer, NCI),这是一个序列到序列的网络,直接为指定查询生成相关文档标识符。为了优化NCI的召回性能,发明了一种前缀感知的权重自适应解码器架构,并利用了包括查询生成、语义文档标识符和基于一致性的正则化技术。实证研究表明,NCI在两个常用的学术基准测试中优于现有方法,分别在NQ320k数据集的Recall@1和TriviaQA数据集的R-Precision上实现了+21.4%和+16.8%的相对提升。
创新点
- 端到端深度神经网络:提出了一个统一的深度神经网络模型,用于训练和索引阶段,以提高文档检索的召回率。
- 前缀感知的权重自适应解码器:设计