用大模型解决信息检索的工具包

最新推荐文章于 2024-07-25 10:59:24 发布

无数据不智能

最新推荐文章于 2024-07-25 10:59:24 发布

阅读量171

点赞数

文章标签： gpt chatgpt 语言模型

本文链接：https://blog.csdn.net/qq_28221231/article/details/131669277

版权

概述

本文的研究背景是通过使用大型语言模型（LLM）解决信息检索（IR）任务中的训练数据不足的问题。过去的方法包括InPars和Promptagator，但它们的复现性受到了限制，因为InPars基于TPUs，而Promptagator的代码和私有LLM不可公开访问。这篇文章的方法旨在解决这些问题，并提供了一种统一的工具包，实现了端到端的可再现性合成数据生成研究，并支持使用不同的LLM，探索不同的过滤方法以及在生成的数据上微调各种再排序模型。本文提出了一个统一的工具包，包括生成、过滤、训练和评估合成数据的端到端流程。还提供了与IR库的接口和GPU支持。通过使用该工具包，可以复现InPars方法和部分复现Promptagator方法，并能够灵活使用不同的LLM、探索过滤方法以及微调不同的再排序模型。本文在BEIR基准测试的18个不同数据集上生成了超过2000个GPU小时的合成数据，并在这些数据上微调了再排序模型。方法在各项任务上取得了良好的性能，支持其在IR研究中的应用。

重要问题探讨

以下是五个基于以上文本的深度思考问题：

1. InPars方法中的语言模型和GPT-J模型有何区别？这些区别对于生成合成训练数据有何影响？答：在InPars方法中，最初使用的是GPT-3语言模型作为合成数据生成器，而后来的InPars-v2则使用了GPT-J模型。这两个模型都是训练于大规模文本数据的，并且在生成人类类似的文本、回答问题、进行翻译以及创建原创内容方面表现出色。GPT-J是经过训练的开源6B参数的transformer模型，使用了来自Pile数据集的4020亿个标记进行训练。对于生成合成查询，使用了贪婪解码策略。这些模型的差异可能体现在模型的性能和生成文本的质量上，但具体对合成训练数据的影响需要进一步实验和分析。

2. InPars中的“Vanilla”和“Guided by Bad Questions”两种不同的提示模板之间的差异是什么？答：InPars中的“Vanilla”提示模板使用了三个固定的示例，即从MS MARCO训练数据集中随机收集的文档和相关查询对。而“Guided by Bad Questions”（GBQ）提示模板则使用了与第一个提示模板相同的示例，但将MS MARCO数据集中的原始问题标记为“bad”问题，并手动创建更加详细的“good”问题。这样做的目的是鼓励语言模型生成更具信息性的问题，使得文档的上下文更好地为回答问题提供了贡献。

3. InPars如何生成用于微调检索模型的合成训练数据？答：InPars使用从文集D中随机选取的文档来生成10万对正面训练样本。无论输入的文档是什么，都会使用相同的前缀t。在生成合成数据后，提出了一步过滤的方法，选择与以下(log)概率最相关的前K对，其中概率p(푞푖|푡,푑,푞<푖)是G所分配的，用于对푞的第푖个令牌进行自回归生成的概率，而푞<푖是先前解码步骤中生成的令牌。通过这个过滤得分来筛选出前K=10,000对文档和合成查询作为微调数据，这种过滤提高了训练数据的质量。

4. InPars-v2中改进的过滤方法是什么？使用预训练的再排序模型进行过滤的效果如何？答：在InPars-v2中，使用了预训练的再排序模型来过滤用于训练的合成查询。具体来说，使用了monoT5-3B再排序模型。这种改进方法可能在过滤合成查询时具有更好的效果，提高了训练数据的质量。

5. 过滤合成查询对于微调再排序模型的效果如何？没有进行过滤的情况下，使用全部的10万个合成查询进行微调会有什么结果？答：根据文中提到的实验结果，在MS MARCO数据集上，如果没有进行过滤，即使用全部的10万个合成查询进行微调再排序模型，会导致MMR@10指标下降4个百分点。因此，过滤合成查询对于微调再排序模型具有重要的影响，可以提高模型的性能。

无数据不智能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用大模型解决信息检索的工具包

本文的研究背景是通过使用大型语言模型（LLM）解决信息检索（IR）任务中的训练数据不足的问题。过去的方法包括InPars和Promptagator，但它们的复现性受到了限制，因为InPars基于TPUs，而Promptagator的代码和私有LLM不可公开访问。这篇文章的方法旨在解决这些问题，并提供了一种统一的工具包，实现了端到端的可再现性合成数据生成研究，并支持使用不同的LLM，探索不同的过滤方法以及在生成的数据上微调各种再排序模型。
复制链接

扫一扫