【AI学习】简单聊聊后训练(Post-Training)的重要性

最近的学习,越来越领会后训练的重要性。预训练只能学到语言本身的统计概率、基础通用的语义,如果希望模型发挥更好的作用,后训练显得越来越重要。
这里,我想,可能存在这样一个逻辑,在预训练阶段,只是学习到了网络的平均水平,而通过后期的对齐和引导,模型是可以输出高于网上数据的平均水平的结果,进一步的,模型也可以自动的引导这个提升过程,就像《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》文章所看到的那样。

在前面,Meta推出 Llama 3 的介绍中,提到了后训练的重要性,“我们在后训练阶段投入了大量的工作,我想大家都喜欢谈论预训练,以及我们扩大了规模,使用的 GPU 数量达到了数万个,以及在预训练中使用了多少数据,但实际上,真正的关键在于后训练阶段。这就是我们目前花费大部分时间的地方,我们在这里生成了大量的人工注释,执行了大量的有监督微调(SFT),我们正在做的事情,比如拒绝采样、PPO、DPO,尝试在这些模型的可用性、人类方面的特征以及预训练中的大规模数据之间找到平衡,这就是我们如何思考这些问题的”。

恰好,今天看到两条微博,其中都提到了后训练。

微博转载一

来自微博@宝玉xp老师的微博:

OpenAI 创始人 John Schulman 访谈节选:为什么 GPT-4 比一年前更“聪明”了?主要都是后训练(Post-Training)带来的!

另外他认为,在强化学习研究领域,研究人员需要具备丰富的经验和敏锐的直觉。了解整个技术堆栈,并对各个部分充满好奇心是关键。此外,从第一性原理出发思考问题,而不仅仅依靠实验证据,也能够帮助研究人员在数据操控和环境设置方面做出更好的决策。


Dwarkesh Patel:在未来,用于训练的计算力中,预训练与后训练的比例是否会明显偏向后训练呢?

John Schulman:确实,有一些观点支持这种说法。

Dwarkesh Patel:我是说,现在这个比例非常不平衡。

John Schulman:但你可以认为,模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我会说,我们通过后训练取得了很多进步。因此,我不确定。所以,我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。

Dwarkesh Patel:当前的 GPT-4 的 ELO 分数比最初发布的版本高出了大约 100 分。这是否全都是后训练带来的改进呢?

John Schulman:对,我会说大部分都是后训练带来的。

Dwarkesh Patel:这很有意思。

John Schulman:因此,有很多不同的改进方向。我们会考虑数据质量,数据数量,进行更多的部署和收集新数据的迭代,改变你收集的注解种类。因此,有很多因素叠加在一起。但是全部加在一起,就会带来一个相当不错的,有效的计算力提升。

Dwarkesh Patel:后训练的优化程度对于竞争优势有多大影响呢?

John Schulman:目前,我会区别公司是通过我们的模型有多大等等。那么,找出你之前提到的所有这些数据的复杂问题的公司,会占据大优势吗?

John Schulman:我认为这确实是一个优势,因为这是一个非常复杂的任务。因此,你必须有很多有技能的人来执行它。因此,存在大量的隐性知识。同时也需要大量的组织知识。我认为后训练的过程,创建一个具备人们所关心的所有功能的模型,是十分复杂的。这需要付出大量的努力,它是大量研发工作的积累。我会说这种情况在某种程度上形成了一种壁垒,要想立即启动这种模型并非易事。

Dwarkesh Patel:看起来那些正在进行最严肃的预训练努力的公司,也在进行严肃的后训练努力。因此,看起来这种模型有可能被复制或有更多的类似努力出现。

John Schulman:另外,还有一种情况使得这个壁垒并非那么明显,那就是你可以提取模型,或者复制别人的模型输出,或者使用别人的模型进行比较。我认为大公司可能并不会这样做,因为这违反了服务条款,也会损害他们的自尊心,但我预计一些规模较小的参与者可能正在这样做以便更好地起步。

Dwarkesh Patel:那些真正擅长进行这种强化学习(RL)研究的人有什么样的特质呢?我听说这种研究非常具有挑战性,但是什么样的直觉能帮助你找到操控数据和设置环境的方法呢?

John Schulman:我觉得有相当多的经验是关键。自从研究生时期以来,我一直在研究 RL 算法,涉及到数据收集、到注释过程,再到与语言模型的交互。所以,我算是涉猎了这些领域。我认为,在这类研究中表现出色的人通常对整个技术堆栈有全面的了解,并且对其中的各个部分充满好奇心。他们不仅依靠实验证据来更新自己的观点,还会从第一性原理出发思考问题。比如,假设深度学习是有效的,那么理想的收集数据的类型应该是什么,等等。

微博转载二

来自@i陆三金老师的微博:
Scale AI 创始人 Alexandr Wang 对于 OpenAI 和 Google 最近发布会的评价,他反复强调 post-training(后训练)非常重要,不过他就是做这部分数据的,并表示下周有重要发布,还请理性看待他的言论:

  • 从很多方面来看,Gemini 1.5 Flash 都是 Google 发布的精华。1M 上下文小模型的 Flash 性能令人难以置信。

目前,OpenAI 的 GPT-4o 是最好的大型模型,谷歌的 Gemini 1.5 Flash 是最好的小型模型。

比赛开始了。

  • 无论如何,收敛水平都令人着迷——4o 和 Astra、Veo 和 Sora 之间的相似性等。两个实验室似乎在遵循相对相似的技术轨迹。

在我看来,对于行业来说,分歧比趋同更有利。唉……

  • GPT-4o 的评估收益令人震惊,这似乎几乎完全归功于出色的 post-training。

将刚发布时的 GPT-4 与 GPT 4o 进行比较,它们是天壤之别,这显示了通过出色的数据进行出色的 post-training 的威力。

  • 事实上,当今顶级模型(Claude 3、Llama3、GPT-4o、Gemini 1.5)之间的大部分差异似乎完全是由 post-training(后训练)而非 pre-training(预训练)造成的。

这可能是因为预训练中的供应链问题——算力不足 + 数据稀缺。

  • 不管怎么说,这也表明了我们对未来发展的预期:

进一步推进 post-training,这需要丰富的前沿数据。

post-training 数据的丰富程度可能会完全制约前进的步伐。

  • 一旦你开始考虑所有的前沿研究领域,这一点就显得格外正确:

agents、多模态、多语言、专家思维链、企业工作流等。

所有这些都依赖于现在根本不存在的数据,而我们需要生产资料。

  • AI 数据是一个非常棘手的问题,没有简单的解决办法。

纯合成数据并非我们的救星——合成数据无法将模型的边界推向现有能力之外。它只是一种工具,而非灵丹妙药。

这是一个人工智能与人类专家共生的难题。

  • 但我们真的需要一步步改变。过去二十年来,人工智能的每一次重大突破都是由更好、更多的数据推动的,最早可以追溯到 ImageNet 上最初的 AlexNet 深度神经网络。

Scaling laws 清楚地说明了我们的方向–我们需要更多的数据!

  • 解决人工智能数据问题真的很重要。这是我毕生的事业。
  • 18
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值