大模型微调（二）微调的3种方法：自监督学习、监督学习、强化学习

大模型RAG实战

已于 2024-09-12 19:54:28 修改

阅读量1.3k

点赞数 17

文章标签：学习深度学习机器学习人工智能大模型大模型微调微调方法

于 2024-08-12 16:21:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59614665/article/details/141134928

版权

微调的3种方法

一、自监督学习

自监督学习包括基于训练数据的固有结构训练模型。在LLM的上下文中通常是给定一系列单词（或更准确地说是标记），预测下一个单词（标记）。目前的大部分GPT-style的预训练模型都是这一类。这种情况下也可以进行微调，「如给定一组示例文本，微调模型可以模仿一个人的写作风格」。

二、监督学习

监督学习是最常见的微调方法。主要是根据 「特定任务的输入输出对」（微调数据集）上训练模型，如指令微调，它旨在提高模型在回答问题或响应用户提示方面的性能。

所以，监督学习的 「关键是整理训练数据集（curating a training dataset）」。在对话模型中，简单且常见的方法是创建问答对并将它们集成到提示模板中。如:

"""Please answer the following question.

Q: {Question}

A: {Answer}
"""

三、强化学习

强化学习（RL）使用奖励模型来指导基础模型的训练，其基本思想是先训练奖励模型以便对语言模型的完成情况进行评分，这个评分反映了人的偏好。然后，这个奖励模型再与强化学习算法（例如近端策略优化（Proximal Policy Optimization，PPO））相结合，以微调预训练模型。

OpenAI的InstructGPT[4]模型展示了如何使用RL进行模型微调的一个例子，该模型通过3个关键步骤完成RL的微调：

利用已有或生成的高质量的提示-响应对，并使用监督学习对预训练模型进行微调。（~13k 提示-相应对训练集）。这一步可以忽略直接跳到第2步。
使用微调模型生成文本，并根据人的偏好通过人工标记的方式对响应进行排名，然后使用这些偏好排名来训练奖励模型。（~33k提示-相应对训练集）。
使用奖励模型和RL算法（例如 PPO）进一步微调模型。（~31k提示-相应对训练集）。

虽然上述策略通常会使得LLM在完成文本生成时比基本模型更可取，但也可能在其他任务子集上的性能降低，这种性能下降的代价也称为调整税（alignment tax）

最后

给大家分享一本大模型入门书籍《从零开始大模型开发与微调：基于PyTorch与ChatGLM》，适合PyTorch深度学习初学者、大模型开发初学者、大模型开发人员学习。

有需要这本书籍PDF文档，可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

《从零开始大模型开发与微调：基于PyTorch与ChatGLM》共18章，内容包括：

人工智能与大模型
PyTorch 2.0深度学习环境搭建
从零开始学习PyTorch 2.0
深度学习基础算法详解
基于PyTorch卷积层的MNIST分类实战
PyTorch数据处理与模型展示
ResNet实战
有趣的词嵌入
基于PyTorch循环神经网络的中文情感分类实战
自然语言处理的编码器
预训练模型BERT
自然语言处理的解码器
强化学习实战
只具有解码器的GPT-2模型
实战训练自己的ChatGPT
开源大模型ChatGLM使用详解
ChatGLM高级定制化应用实战
对ChatGLM进行高级微调

在这里插入图片描述

有需要《从零开始大模型开发与微调：基于PyTorch与ChatGLM》PDF文档，可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。