微调的3种方法
一、自监督学习
自监督学习包括基于训练数据的固有结构训练模型。在LLM的上下文中通常是给定一系列单词(或更准确地说是标记),预测下一个单词(标记)。目前的大部分GPT-style的预训练模型都是这一类。这种情况下也可以进行微调,「如给定一组示例文本,微调模型可以模仿一个人的写作风格」。
二、监督学习
监督学习是最常见的微调方法。主要是根据 「特定任务的输入输出对」(微调数据集)上训练模型,如指令微调,它旨在提高模型在回答问题或响应用户提示方面的性能。
所以,监督学习的 「关键是整理训练数据集(curating a training dataset)」。在对话模型中,简单且常见的方法是创建问答对并将它们集成到提示模板中。如:
"""Please answer the following question.
Q: {Question}
A: {Answer}
"""
三、强化学习
强化学习(RL)使用奖励模型来指导基础模型的训练,其基本思想是先训练奖励模型以便对语言模型的完成情况进行评分,这个评分反映了人的偏好。然后,这个奖励模型再与强化学习算法(例如近端策略优化 (Proximal Policy Optimization,PPO))相结合,以微调预训练模型。
OpenAI的InstructGPT[4]模型展示了如何使用RL进行模型微调的一个例子,该模型通过3个关键步骤完成RL的微调:
-
利用已有或生成的高质量的提示-响应对,并使用监督学习对预训练模型进行微调。(~13k 提示-相应对训练集)。这一步可以忽略直接跳到第2步。
-
使用微调模型生成文本,并根据人的偏好通过人工标记的方式对响应进行排名,然后使用这些偏好排名来训练奖励模型。(~33k提示-相应对训练集)。
-
使用奖励模型和RL算法(例如 PPO)进一步微调模型。(~31k提示-相应对训练集)。
虽然上述策略通常会使得LLM在完成文本生成时比基本模型更可取,但也可能在其他任务子集上的性能降低,这种性能下降的代价也称为调整税(alignment tax)
最后
给大家分享一本大模型入门书籍《从零开始大模型开发与微调:基于PyTorch与ChatGLM》,适合PyTorch深度学习初学者、大模型开发初学者、大模型开发人员学习。
有需要这本书籍PDF文档,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】
《从零开始大模型开发与微调:基于PyTorch与ChatGLM》共18章,内容包括:
- 人工智能与大模型
- PyTorch 2.0深度学习环境搭建
- 从零开始学习PyTorch 2.0
- 深度学习基础算法详解
- 基于PyTorch卷积层的MNIST分类实战
- PyTorch数据处理与模型展示
- ResNet实战
- 有趣的词嵌入
- 基于PyTorch循环神经网络的中文情感分类实战
- 自然语言处理的编码器
- 预训练模型BERT
- 自然语言处理的解码器
- 强化学习实战
- 只具有解码器的GPT-2模型
- 实战训练自己的ChatGPT
- 开源大模型ChatGLM使用详解
- ChatGLM高级定制化应用实战
- 对ChatGLM进行高级微调
有需要《从零开始大模型开发与微调:基于PyTorch与ChatGLM》PDF文档,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】