60条数据就能教会大模型知识问答! | 探索大模型在问答任务上的微调策略

img

从2022年底发展至今,大语言模型(LLMs)逐渐融入我们的生活,其广泛的知识和强大的能力令人惊叹。然而,关于其能力来源的机制依然充满未解之谜。本文聚焦于问答(QA)任务,通过一系列实验深入分析监督微调(SFT)阶段LLMs在问答任务中的表现。令人惊讶的是,仅用60条数据,LLMs便能充分激活所具备的知识,高质量地完成问答任务,而不同的数据选择则可能导致截然不同的结果。让我们一起探索LLMs知识问答的奥秘!

📖 论文: https://arxiv.org/pdf/2409.15825

点击阅读原文直接访问论文链接

1

论文速看 (省流版)

大语言模型(LLMs)通过在海量数据集上的预训练,能够编码丰富的世界知识,并且可以通过微调将这些知识应用于问答(QA)任务。然而,如何有效地微调LLMs以提升QA任务表现的策略仍未得到充分研究。

为此,我们从知识记忆和运用的角度出发,开展了一系列实证分析,重点关注三个核心问题:SFT所需的数据量、不同SFT数据集对模型QA表现的影响,以及不同LLMs在数据需求上的差异。

我们的实验基于预训练的知识记忆层次对监督微调(SFT)数据进行分类,涉及来自三个不同模型家族的四个LLMs。从实验结果中可以发现:

  • 在SFT阶段仅需60条数据就能激活预训练时编码的知识,使LLMs能够有效执行QA任务。
  • 使用不同知识记忆层次的数据进行SFT,对LLMs的表现有显著并且有规律的影响。
  • 对于QA任务来说最优的SFT数据集因具体模型而异。

未来的研究中,我们将进一步深入探讨这些现象背后的机制。

2

论文速看 (完整版)

大语言模型(LLMs),如GPT、LLaMA和Qwen系列,是在涵盖广泛类型和世界知识的多样化语料库上进行预训练的。近来的很多研究表明,这些知识被编码在模型的参数中,并且可以通过监督微调(SFT)应用于问答(QA)任务。然而,目前的工作缺乏深入分析,并不能为设计LLMs在问答任务中更有效的微调策略提供良好指导。

为此,我们开发了一种鲁棒的多模板补全(multi-template complementation)机制,用于评估预训练的LLMs对不同知识的记忆效果。随后,我们对来自三个模型家族的四个LLMs进行了实证分析,重点解决三个关键问题。

Q1: 在SFT阶段需要多少数据才能让LLMs学会QA任务?

我们从维基百科中收集了12个与地点相关的话题数据,用于构建训练和测试集,同时收集了12个不相关话题的数据,构建出领域外的测试集。通过调整训练数据的数量,我们发现,**在SFT阶段仅需60条数据,LLMs便能够高效地执行QA任务,并表现出较强的泛化能力。**增加训练数据并未带来显著的性能提升,反而可能损害模型表现。我们推测这是因为SFT激活并优化了预训练期间已经编码的知识,仅需少量参数调整即可优化该过程。

Q2: 不同的SFT数据集如何影响LLMs在QA任务上的表现?

我们使用多模板互补机制将训练和测试数据划分为五个记忆层次进行研究。结果显示,**使用不同记忆层次的数据进行微调,会导致模型在知识激活上有显著而规律性的差异。**例如,尽管LLMs在回答预训练中记忆较好的知识时表现得更准确,但使用模型几乎未记住的数据进行SFT会严重削弱了高记忆层次知识的激活。这强调了在SFT中谨慎选择数据的重要性,并展示了不同数据集如何深刻影响LLMs执行QA任务的能力。

Q3: 不同LLMs在SFT阶段对数据的需求有何差异?

我们对不同LLMs的知识记忆层次进行了比较分析,并使用相同的数据对它们进行微调,发现它们在QA任务中的表现存在显著差异。这表明,LLMs的预训练语料库差异导致了它们在SFT阶段对数据需求的不同,为不同模型的最优训练数据构造提供了新的见解。

3

主要贡献

\1. 我们设计了一种多模板补全机制,能够可靠地评估预训练LLMs对不同知识的记忆程度。

\2. 我们对来自三个不同模型家族的四个LLMs进行了广泛的实证分析,解决了关于微调LLMs用于QA任务的三个关键问题。

\3. 我们发现了在QA任务中使用不同数据或不同基座LLMs微调的内在差异,为制定更有效的微调策略提供了新的见解。

\4. 我们计划进一步探索微调LLMs用于QA任务的潜在机制,以更深入解释这些研究结果。

4

多模板补全机制

如图1所示,设 𝑘 ∈ 𝐾 为集合𝐾中的一个元素,表示为一个三元组(主语,关系,宾语),例如(Painblanc, 位于, 法国)。给定一个句子 𝑥 = 𝑚𝑎𝑝(主语, 关系),它将主语和关系进行了映射(例如“Painblanc 位于”),如果模型 𝑀𝑏𝑎𝑠𝑒 能够通过映射宾语(例如“法国”)预测 𝑦 = 𝑚𝑎𝑝(宾语),且 𝑦 ⊆ 𝑀𝑏𝑎𝑠𝑒 (𝑥),则我们认为 𝑀𝑏𝑎𝑠𝑒 已经记住了知识 𝑘。由于 𝑀𝑏𝑎𝑠𝑒 是一个概率模型,其输出受不同映射模板和采样概率的影响,我们为每条知识 𝑘 设计了 𝑁𝑚𝑎𝑝 = 21 个不同的映射。在温度参数设置为0.7的情况下,模型为每个映射生成 𝑁𝑠𝑎𝑚𝑝𝑙𝑒 = 10 个输出,我们通过下列公式计算LLM记忆知识 𝑘 的程度,其中i表示第i个三元组,j表示第j个样本,I()是指示函数。

img

该方法利用了LLM的文本补全能力,同时解决了以往研究中上下文示例带来的偏差。通过使用多个模板和重复采样,减少了概率模型采样中的随机性影响,有效地衡量了模型对知识的记忆程度。

img

5

实验设置

在我们的研究中,我们使用了ENTITYQUESTIONS,这是一个包含维基百科上24个不同话题知识的问答数据集。我们选择了12个与地点相关的原始训练集作为训练数据 𝐷𝑡𝑟𝑎𝑖𝑛,将它们对应的测试集作为测试集 𝐷𝑡𝑒𝑠𝑡,并将剩余12个话题的测试集作为领域外测试集 𝐷𝑡𝑒𝑠𝑡−𝑜𝑜𝑑。

给定一个预训练的LLM,为了详细分析其在SFT之后执行QA任务的表现,我们应用如上定义的多模板补全机制,根据其知识记忆水平将训练和测试集均进行了5个级别的划分,例如测试集被划分为:

img

我们通过对各个记忆水平的测试子集的准确率取平均值,得到测试集上的总体表现。

6

主要实验结果

为全面分析如何有效地微调LLMs以执行QA任务,我们考察了SFT阶段的数据量需求(Q1)以及使用不同记忆水平数据进行微调的影响(Q2)。

1. SFT的数据量需求

为了回答Q1,我们使用不同记忆水平的训练数据 𝐷𝑡𝑟𝑎𝑖𝑛−𝑖 的来分析每个LLM。我们将训练数据划分为六个不同的数据量级别,从60个样本到完整数据集不等,并通过从12个话题中均匀抽样来构建训练集。发现如下:

  • 实验结果表明,经过SFT后,仅需60个训练样本就足以使LLMs高效执行QA任务,并展现出强大的泛化能力。领域内的结果(图2)显示,无论基础模型或记忆水平如何,LLMs在使用较少训练样本时的表现优于使用960个或全部样本。大多数模型在 𝑁𝑡𝑟𝑎𝑖𝑛 = 60 时达到或接近最佳表现,表明这一数量足以应对领域内任务。此外,领域外的评估结果(图3)表明,与使用完整数据集相比,使用有限的训练样本仍能达到最佳性能。我们推测这是因为SFT激活并提炼了预训练期间已经编码的知识,仅需少量的参数调整即可优化这一过程。

img

img

2. 使用不同记忆水平的数据进行微调的影响

我们对每个LLM的训练数据、测试数据和领域外测试数据的记忆水平进行了分类。由于我们在第3.1节中已经确定,使用仅60个样本进行微调就能使LLMs在QA任务上表现良好,因此本节仅关注在这种设置下的结果。发现如下:

  • 无论使用何种数据进行微调,LLMs始终对预训练期间记忆较好的知识提供更准确的答案。通过查看表2和表3的每一行,我们观察到SFT模型在记忆水平较高的测试集上,表现始终优于记忆水平较低的测试集,具体表现为:𝐴𝐶𝐶𝑡𝑒𝑠𝑡−4 > 𝐴𝐶𝐶𝑡𝑒𝑠𝑡−3 > 𝐴𝐶𝐶𝑡𝑒𝑠𝑡−2 > 𝐴𝐶𝐶𝑡𝑒𝑠𝑡−1 > 𝐴𝐶𝐶𝑡𝑒𝑠𝑡−0。

  • 在特定记忆水平的数据上进行训练能够提升LLMs在该水平知识上的表现。在表2中,我们注意到一个有趣的“对角线现象”:对于特定记忆水平的测试数据,使用相同记忆水平数据训练的LLMs往往表现最佳。例如,对于 𝐷𝑡𝑒𝑠𝑡−0,使用 𝐷𝑡𝑟𝑎𝑖𝑛−0 训练的表现通常是最高的。这表明,**不同记忆水平的数据可能在模型中以不同方式被编码。**因此,选择适当的数据集对于提升LLMs在不同知识水平上的表现至关重要。表3也展示了在领域外测试集中类似的现象。

  • 总体而言,更有效的策略是使用高记忆水平的数据进行SFT。表2和表3显示,使用 𝐷𝑡𝑟𝑎𝑖𝑛−0 进行训练会显著削弱LLMs在测试数据的高记忆水平(例如 𝐷𝑡𝑒𝑠𝑡−3, 𝐷𝑡𝑒𝑠𝑡−4)上的表现,进而对整体性能产生负面影响。相反,使用较高记忆水平的数据训练的模型往往能够实现最佳的整体表现 𝐴𝐶𝐶𝑡𝑒𝑠𝑡,因为它们在不同记忆水平上保持了更为平衡的表现。

img

img

7

更多分析

在本节中,我们进一步探讨问题Q3,即SFT阶段的数据需求在不同LLMs中如何变化。一方面,我们比较了不同LLMs的知识记忆水平分布,以研究它们在知识记忆方面的差异。另一方面,我们使用相同的数据训练不同的模型,以突显每个LLM对微调数据的特定需求。

1. 不同LLMs的知识记忆水平分布

为彻底分析各个LLMs之间在知识记忆水平上的差异,我们以成对对比的方式比较了不同LLMs在训练数据 𝐷𝑡𝑟𝑎𝑖𝑛 上的记忆水平。发现如下:

  • 图4的结果展示了不同LLMs之间在知识分布上的显著差异。例如,在热图©中,Qwen-2-7B难以记住的知识(即 𝐷𝑡𝑟𝑎𝑖𝑛−0)在LLaMA-3-8B中仍被部分记住,其中还有33条被深度记住(即 𝐷𝑡𝑟𝑎𝑖𝑛−4)。此外,LLaMA-3-8B展现出比其他模型更高的记忆水平,表明其具备更广泛的知识基础。考虑到LLMs编码知识的能力与预训练语料库中相应数据的数量有关,这些差异很可能源于不同LLMs的预训练语料库的差异。

img

2. 不同LLMs的数据需求差异

鉴于不同LLMs在知识记忆水平分布上存在显著差异,我们假设每个LLM所需的合适SFT数据不同。为了验证这一假设,我们使用相同的一批SFT数据对不同模型进行训练。具体而言,我们选择了60个数据样本,这些样本可能会被不同的基础模型归类为不同的记忆水平,记作 𝐷∗,并使用这些数据对来自三个模型家族的LLMs进行训练。发现如下:

  • 表4的结果清楚地说明了使用相同数据微调不同LLMs时所产生的显著差异。具体而言,LLaMA-3-8B在使用 𝐷∗进行微调时表现出更优异的性能,而其他模型,尤其是Qwen-2-7B,其问答能力没有得到良好发展。结合图4的发现,我们观察到具有类似知识记忆水平分布的LLMs(如LLaMA2-7B和Qwen-2-7B)在使用相同数据微调后表现更为一致。这表明,为不同模型选择最合适的训练数据应基于它们的记忆水平分布特征。

img

8

结论与展望

在本文中,我们对LLMs在问答任务中的微调进行了全面的实证分析。我们提出了一种基于多模板补全机制的记忆区分方法,深入探讨了SFT的数据需求、使用不同记忆水平数据的效果以及不同LLMs的数据需求差异。我们希望这些发现能够为设计更有效的SFT策略提供有价值的见解。

未来,我们计划基于这些结果,进一步深入分析LLMs的潜在机制。我们的目标是研究在不同条件下,SFT对LLMs性能变化及模型本身的影响,旨在明确使用LLMs执行问答任务的关键因素。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值