大模型微调(二)微调的3种方法:自监督学习、监督学习、强化学习

微调的3种方法

一、自监督学习

自监督学习包括基于训练数据的固有结构训练模型。在LLM的上下文中通常是给定一系列单词(或更准确地说是标记),预测下一个单词(标记)。目前的大部分GPT-style的预训练模型都是这一类。这种情况下也可以进行微调,「如给定一组示例文本,微调模型可以模仿一个人的写作风格」。

二、监督学习

监督学习是最常见的微调方法。主要是根据 「特定任务的输入输出对」(微调数据集)上训练模型,如指令微调,它旨在提高模型在回答问题或响应用户提示方面的性能。

所以,监督学习的 「关键是整理训练数据集(curating a training dataset)」。在对话模型中,简单且常见的方法是创建问答对并将它们集成到提示模板中。如:

"""Please answer the following question.

Q: {Question}

A: {Answer}
"""

三、强化学习

强化学习(RL)使用奖励模型来指导基础模型的训练,其基本思想是先训练奖励模型以便对语言模型的完成情况进行评分,这个评分反映了人的偏好。然后,这个奖励模型再与强化学习算法(例如近端策略优化 (Proximal Policy Optimization,PPO))相结合,以微调预训练模型。

OpenAI的InstructGPT[4]模型展示了如何使用RL进行模型微调的一个例子,该模型通过3个关键步骤完成RL的微调:

  • 利用已有或生成的高质量的提示-响应对,并使用监督学习对预训练模型进行微调。(~13k 提示-相应对训练集)。这一步可以忽略直接跳到第2步。

  • 使用微调模型生成文本,并根据人的偏好通过人工标记的方式对响应进行排名,然后使用这些偏好排名来训练奖励模型。(~33k提示-相应对训练集)。

  • 使用奖励模型和RL算法(例如 PPO)进一步微调模型。(~31k提示-相应对训练集)。

虽然上述策略通常会使得LLM在完成文本生成时比基本模型更可取,但也可能在其他任务子集上的性能降低,这种性能下降的代价也称为调整税(alignment tax)


最后

给大家分享一本大模型入门书籍《从零开始大模型开发与微调:基于PyTorch与ChatGLM》,适合PyTorch深度学习初学者、大模型开发初学者、大模型开发人员学习。

有需要这本书籍PDF文档,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】


《从零开始大模型开发与微调:基于PyTorch与ChatGLM》共18章,内容包括:

  1. 人工智能与大模型
  2. PyTorch 2.0深度学习环境搭建
  3. 从零开始学习PyTorch 2.0
  4. 深度学习基础算法详解
  5. 基于PyTorch卷积层的MNIST分类实战
  6. PyTorch数据处理与模型展示
  7. ResNet实战
  8. 有趣的词嵌入
  9. 基于PyTorch循环神经网络的中文情感分类实战
  10. 自然语言处理的编码器
  11. 预训练模型BERT
  12. 自然语言处理的解码器
  13. 强化学习实战
  14. 只具有解码器的GPT-2模型
  15. 实战训练自己的ChatGPT
  16. 开源大模型ChatGLM使用详解
  17. ChatGLM高级定制化应用实战
  18. 对ChatGLM进行高级微调

在这里插入图片描述
在这里插入图片描述

有需要《从零开始大模型开发与微调:基于PyTorch与ChatGLM》PDF文档,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值