论文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
code:https://github.com/huggingface/transformers
code:https://github.com/huggingface/transformers/blob/master/model_cards/facebook/rag-token-nq/README.md
《检索增强生成处理知识密集型NLP任务》
abstract
大规模的预训练语言模型可以在参数中存储大量知识,并且通过对下游的NLP任务进行微调,可以获得SOTA的结果。然而,他们获取和精确操作知识的能力仍然有限,因此在知识密集型的任务上和预训练上,他们的表现仍落后于针对特定任务的框架。因此本文提出了一种通用的检索增强方法(RAG)--------结合预训练模型中的参数存储和非参数存储来生成语言。其中参数存储是一个预训练好的seq2seq模型,非参数存储是通过一个预先训练好的神经检索器来访问Wikipedia的密集向量索引。本文在知识密集型NLP任务上进行微调并对模型进行评估,并在三个开放领域的QA任务上取得了SOTA结果,优于参数seq2seq模型和特定任务的检索和抽取,对于语言生成任务,本文发现RAG模型比最先进的参数化seq2seq方法来说,能生成更具体、更多样化和更真实的语言。
1. Introduction
现有的预训练模型可以在参数中存储大量知识,但是他们很难地扩充或改变他们的参数。将参数存储和非参数存储结合的混合模型,可以解决其中一些问题,因为混合模型可以随时补充和调整内部知识存储,无需浪费时间或因计算能力重新训练整个模型。另外本文只讨论了知识问答领域。其中参数存储模型是预训练生成的seq2seq transformer模型,非参数存储模型是使用预训练神经检索器获得的维基百科密集向量索引。
因此,RAG具有两种知识来源。一是seq2seq模型存储在其参数中的知识,即参数存储;二是检索语料库中存储的知识,也就是非参数存储。
本文的结果主要介绍了将参数存储和非参数内存与知识密集型任务的生成结合的好处。采用标准Seq2Seq模型,意味着RAG无需考虑序列长度和顺序,每个输入对应一个输出序列,但不同的是,RAG不会直接将输入结果直接传递给生成器,而是使用输入来检索一组相关文档,这也让RAG在性能比传统Seq2Seq模型有所提升。
论文提出了一种名为RAG的检索增强生成方法,结合预训练的seq2seq模型(如BART)和神经检索器(DPR),在知识密集型NLP任务上实现SOTA结果。RAG通过检索相关文档并结合参数存储进行生成,提高了模型在问答、事实验证等任务中的性能,尤其在开放领域QA中表现优越。
最低0.47元/天 解锁文章
114

被折叠的 条评论
为什么被折叠?



