笔记-《A Survey of Large Language Models》- 5 适配微调

L_serein

已于 2024-03-26 18:28:36 修改

阅读量559

点赞数 3

分类专栏：玩转LLM 文章标签：笔记语言模型人工智能

于 2024-03-25 22:15:08 首次发布

本文链接：https://blog.csdn.net/L_serein/article/details/137027839

版权

本文介绍了如何通过指令微调和对齐微调来进一步提升大语言模型的能力，重点关注了这两种方法的原理、实例构建、效果以及在适应人类需求和保持价值观一致性方面的应用。同时，还探讨了参数高效微调技术在Transformer模型中的应用，特别是在大语言模型上的实践和比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                        
                    
                    5 大语言模型的适配微调 
  LLM 的能力可以进一步适配(adapting)到特定的目标。本节中,我们将介绍两种适配预训练后的 LLM 的方法:指令微调(instruction tuning)和对齐微调(alignment tuning) 
    指令微调(instruction tuning) 
      旨在增强(或解锁) LLM 的能力
 
对齐微调(alignment tuning) 
      旨在将 LLM 的行为与人类的价值观或偏好对齐。
 
 
5.1 指令微调 
    本质上,指令微调是在自然语言格式的实例(instance)集合上微调预训练后的 LLM 的方法 [62]。这种方法与有监督微调 [61] 和多任务提示训练 [28] 密切相关。
首先需要收集或构建指令格式(instruction-formatted) 的实例。
然后, 我们使用这种格式的实例以有监督的方式微调LLM(例如使用序列到序列的损失进行训练) 。
指令微调后, LLM 可以展现出泛化到未见过任务的卓越能力 [28, 62, 64], 即使在多语言场景下也能有不错表现
主要关注在 LLM 上指令微调的效果,并提供详细的实例收集和模型微调的方法和策略。此外,我们还讨论了用指令微调来满足用户实际需求的方法, 这在现有的 LLM 中被广泛应用,例如 InstructGPT [61] 和 GPT-4
5.1.1 格式化实例的构建 
      通常情况下,一个指令格式的实例包括一个任务描述(称为指令) 、一对输入-输出以及少量示例(可选) 。
格式化已有数据集: 
        作为指令微调实例的一种重要来源,用自然语言的任务描述来格式化这些多任务训练数据集是相当方便的。
使用人类撰写的任务描述来增广带标注的数据集,这些描述通过解释任务目标来指导LLM 理解任务。例如,在图 5(b)中,每个问答任务的实例都添加了一个任务描述“请回答下列问题” 。在指令微调之后,LLM 可以通过遵循任务描述很好地泛化到其他未见过的任务上 [28, 62, 64]。特别地,指令被证明是影响 LLM 任务泛化能力的关键因素
为了更好地为指令微调生成标注实例,一种名为 PromptSource 的众包平台 [209] 被提出,可以有效地创建、 共享和验证不同数据集的任务描述。
此外, 一些研究 [28, 212, 216] 还尝试通过为指令微调特殊设计的任务描述,来反转已有实例的输入-输出对。例如,对于一个已有的问题-答案对,我们可以通过基于以问题预测答案的方式来创建一个新实例(例如, “请基于以下答案生成一个问题: ” ) 。
此外,还有一些工作 [217] 利用启发式任务模板将大量无标注的文本转换为带标注的实例。
 
格式化人类需求: 
        尽管大量的训练实例已经通过添加指令进行格式化,但它们主要来自公共的 NLP 数据集,任务描述缺乏多样性或与人类真实需求不匹配
为了解决这个问题, InstructGPT [61] 建议采用真实用户提交给 OpenAI API 的查询作为任务描述。用户查询以自然语言表示, 很适合引导出LLM 遵循指令的能力。
此外,为了丰富任务的多样性,标注者还要为真实生活中的任务编写指令,包括开放式生成、开放式问答、头脑风暴和聊天等。
然后让另一组标注人员直接按照将这些指令作为输出进行回答。
最后, 将指令 (即采集的用户查询)和期望的输出(即人工编写的答案)配对作为一个训练实例。
值得注意的是, InstructGPT 还将这些以自然语言格式化的真实世界任务用于对齐微调(在第 5.2 节中讨论) 。
,GPT-4 [45] 还设计了潜在高风险的指令,并监督微调模型拒绝这些指令以确保安全。
此外,为减轻人工标注的负担,几种半自动化的方法 [218–220] 提出将现有实例输入到 LLM 中生成多样的任务描述和实例来构建实例。
 
构建实例的关键因素: 
        指令实例的质量对模型的性能有重要影响。
• 增加指令: 
          大量研究已经证明扩大任务数量可以极大地提高 LLM 的泛化能力
一定数量的代表性任务可以提供相对充足的知识,而添加更多的任务可能不会带来额外的收益
此外, 从例如长度、结构和创造力等多个方面增强任务描述的多样性也是有益的
至于每个任务所需的实例数量, 已有研究发现少量实例通常可以使模型的泛化性能达到饱和 [62, 64]。然而,将某些任务的实例数量进一步增加(例如数百个)可能会潜在地导致过拟合并影响模型性能
 
• 设计格式:
指令的格式设计也是影响 LLM 泛化性能的一个重要因素
通常来说,我们可以向现有数据集的输入-输出对添加任务描述和可选的示例, 
          其中任务描述是 LLM 理解任务 [93] 的最关键部分。
此外,使用适当数量的示例作为示范 [64],对模型可以产生实质性的