大语言模型对齐的四种方法!

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。

目前,大模型的对齐工作中,RLHF算法是能够达到最优的结果,RLHF通过人类反馈和PPO算法,能够有效的将模型和人类偏好进行对齐。但是RLHF也存在难以训练,训练显存占用较大的缺点。基于此,相关研究工作(RRHF, DPO)等也逐渐被提出,希望能够在较小的显存占用的情况下,实现对齐的工作。本文主要总结RLHF,RRHF,DPO,Flan的相关对齐工作。

RLHF

RLHF是InstructGPT和ChatGPT的训练方法,关于RLHF的介绍,主要参考InstructGPT和huggingface的博客。



https://arxiv.org/abs/2203.02155


在RLHF出现之前,LLM存在着各种依赖输入提示prompt生成多样化文本,但是对于生成结果的难以进行评估。比如模型生成故事,文本,或者代码片段,这些生成结果难以通过现有的基于规则的文本生成指标(BLEU和ROUGE指标)来进行衡量。除了上述的评估指标,现在的模型通常通过预测下一个token的形式和简单的损失函数比如交叉熵损失函数来进行建模,没有显示的引入人的偏好和主观意见。

因此OpenAI提出使用生成文本的人工反馈作为性能衡量指标,或者进一步用该损失来优化模型,也即RLHF的思想:使用强化学习的方式直接优化带有人类反馈的语言模型。

RLHF的三个阶段

  • • 预训练一个语言模型LM

  • • 根据问答数据训练一个奖励模型RM

  • • 使用强化学习RL的方式微调LM

图源为Deepspeed-Chat的工作,相比于huggingface的图,能够清晰的看到PPO算法中的四个模型以及训练情况,缺点就是为了简化图片,缺少了损失函数部分。

1.预训练语言模型

使用经典的预测下一个token的自回归方式预训练一个语言模型。OpenAI选择InstructGPT。基于预训练得到的LM,生成训练奖励模型(RM,也叫偏好模型)的数据。

2. 训练奖励模型

RM模型接受一系列文本并返回一个标量奖励,数值上对应人的偏好。可以直接使用端到端的方式进行建模(直接让RM输出分数),也可以进行模块化的建模(对输出进行排名,再将排名转化为奖励)。

对于RM模型的选择方面,RM可以是另一个经过微调的LM,也可是根据偏好数据从头开始训练的LM。比如Anthropic提出的偏好模型预训练(Preference Model Pretraining, PMP)来替换一般预训练后的微调过程。因为前者被认为对样本数据的利用率更高。

对于训练文本方面,RM的提示-生成对 文本是从预定义的数据集中采样生成的,并用初始的LM对这些提示生成文本。OpenAI采用用户提交给GPT API的prompt。

对于训练奖励数值方面,这里需要人工对LM生成的回答进行排名。对文本直接标注分数会很容易受到主观因素的影响,通过排名可以比较多个模型的输出并构建更好的规范数据集。

对于具体的排名方式,使用Elo系统建立一个完整的排名。这些不同的排名结果将被归一化为用于训练的标量奖励值。

RM模型和生成模型的规模不一定一样,比如OpenAI就采用了6B的RM和175B的LM。不过一种广泛认可的直觉就是,偏好模型和生成模型需要具有类似的能力来理解提供给他们的文本。

3.用强化学习微调

之前由于工程和算法原因,人们认为使用强化学习训练LM是不可能的。而目前的可行方案是使用策略梯度强化学习(Policy Gradient RL)算法,近端策略梯度优化(Proximal Policy Optimization, PPO)微调初始的LM的部分或者全部参数。

将微调任务表述为RL问题。该策略(policy)是一个接受提示并返回一系列文本或者文本的概率分布的LM。策略的行动空间(action space)是LM的词表对应的所有词元(一般在50k的数量级),观察空间(observation space)是可能的输入词元序列(词汇量^输入token的数量),奖励函数是偏好模型哦那个i和策略转变约束(Policy shift constraint)的结合。

PPO算法的奖励函数计算如下:将提示x输入到初始LM和当前微调的LM,分别得到输出文本y1和y2。将来自当前策略的文本传递给RM得到一个标量的奖励 rθ。将两个模型的生成文本进行比较计算差异的惩罚项(输出词分布序列之间的KL散度的缩放), r=rθ−λrKL 。这一项被用于惩罚RL策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。如果去掉这一个惩罚项可能导致模型在优化中生成乱码文本来愚弄模型提供高奖励值。

PPO中的损失函数如上所示,对于第一个RL分布,计算奖励分数和KL损失约束,KL损失约束可以防止actor model偏离原始的ref model太远,保证生成的多样性,并防止模型崩溃到单个高奖励答案。其中对于第二个预训练分布,将预训练的时候梯度和RL的梯度混合。



RRHF
====

https://arxiv.org/abs/2210.11416


RLHF需要三阶段的训练:SFT,RM,PPO。但PPO对超参数比较敏感,并且RLHF在训练阶段需要四个模型,因此RLHF的方法难以训练。因此本文作者提出RRHF,通过对来自不同来源的响应(自身的模型响应,其他大型语言模型响应和人类专家响应)进行打分,并通过排序损失函数使得这些概率和人类偏好保持一致。RRHF只需要1-2个模型,并且不需要复杂的调优,可以看作是SFT和RM模型训练的一个扩展。RRHF在helpful和harmless数据集上进行测试,表明和PPO一致的性能。

RRHF的优化目标是基于响应概率的对数损失。

RRHF首先搜集到各种响应信息(模型自身产生,GPT产生,已经存在的人类标注)。RRHF随后在各种相应上进行训练,输出响应概率,并进行排序,随后利用rank loss进行排序优化。

与RLHF相比,PPO采用advantage function来估计状态-动作对与基线相比是更好还是更差,并提供优化信号,RRHF不需要和基线进行对比,只需要依照排序信息进行优化。PPO需要采用KL散度来保证actor model和ref model不会差的太远,而RRHF在训练之前只使用模型本身进行采样,因此RRHF只需要1-2个模型。RRHF的损失函数主要有两个,一个是针对RM的得分排名损失函数,一个是针对得分最高的分数,计算对数损失函数,因此RRHF本质上是一个选择best-of-n的过程。

RRHF和之前工作的联系

  • • SFT:SFT相当于RRHF的可选择响应的数量为1,相当于直接进行微调

  • • Reward Model:RRHF本质上就是在训练一个RM,只不过通过训练LM的方式来训练,之前的RM都是通过CLS或者EOS来获取排序信息。

  • • PPO:在训练的时候,PPO的样本随着模型的训练进行采样,而RRHF的样本都是在训练之前采集的。RRHF的训练目标是学习排序,而PPO是直接学习分数。



FLAN
====

https://arxiv.org/abs/2210.11416


这篇论文是ChatGPT之前做的比较好的对齐工作,其核心思想就是探究增加数据集的规模,增加模型的大小,增加COT的数据对于模型的性能和泛化能力的影响。

其实验结果从下面两张图可以看出

  • • 多任务微调能够比未微调的效果要好,并且随着任务数量的增加,模型的性能也越好。

  • • 其中282的多任务微调能够带来显著的提升,再增加任务数量,模型的性能趋近于饱和。一种解释是,多任务微调的收益大部分来自于模型学习更好的表达它从预训练中学习到的知识。这一点也可以从训练的token数量看出来(预训练:指令微调=780B:1.4B)

  • • 随着模型规模的增加,模型的性能也越好。

下面一张图是探究CoT数据对于LM在推理任务和其他任务上的性能变化。

  • • 左边的图,加入CoT的数据能够有效的提升模型在CoT任务上的表现,而只在non-CoT的数据上进行训练会导致模型丧失CoT的能力。

  • • 右边的图,只加入CoT的数据不会影响在non-CoT任务上的表现。



DPO
===

https://arxiv.org/abs/2305.18290


与RRHF中所提到的一样,RLHF需要超参数以及四个模型,本文提出新的范式,支持以封闭的形式提取响应的最优策略,只需要简单的分类损失就可以解决标准的RLHF问题。DPO的流程如下所示,左边的是RLHF的流程,通过显式的构建RM来让模型学习到人类偏好,而DPO则是隐式的拟合RM模型。

DPO的损失函数如下所示

和RLHF的损失函数相比,省去了RM模型的显式打分,而是将打分的分值间接的通过差值表现出来,同时也将KL散度约束写到同一个损失当中。

DPO的整个流程线如下所示:

    1. 在ref model上采样y1和y2,构建偏好数据集 D={x{i},yw{i},yl{i}}i=1N
  1. 2. 在给定的数据集 D,πref,β 的基础上优化语言模型 πθ 。在实际训练的时候,通常使用已经存在的偏好数据集,而不是直接生成样本并收集人类偏好。如果 πsft 可获取,就将其看作 πref ,否则的话,则需要在最大化最优问答对(x,yw)的似然来初始化 πref 。

然后就是DPO相比于RLHF的效果,作者在这里做了两个实验。

  • • DPO能够多大程度上优化RLHF目标?

左边的图展示了预期奖励和参考策略的KL边界。DPO在所有的KL约束值下都能拥有更高的奖励期望。

  • • DPO能够扩展到真实的偏好数据集上吗?

作者在摘要任务和单论对话任务上进行评估。上一个图的右侧展示在不同温度系数下,DPO和PPO在摘要任务上的胜率对比,DPO对温度系数更加鲁棒,并且效果更好。在单轮对话上,在Anthropic HH数据集上进行评估。DPO是唯一在Anthropic HH数据集上能够改善最优回答的高效方法,并且提供了与超高计算代价Best of 128基准相似或者更好的性能。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

-END-


👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 30
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值