ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

西风 发自 凹非寺
量子位 | 公众号 QbitAI

离开OpenAI后,他们俩把ChatGPT后训练方法做成了PPT,还公开了~

正如网友所言,可能没有人比他俩更了解ChatGPT后训练的事儿。

c83e2e81865c6cf5fe68b274671c9e6d.png

毕竟,一位是OpenAI联合创始人,曾经也是OpenAI后训练共同负责人的John Schulman,另一位是曾经在OpenAI当后训练研究VP的Barret Zoph

John Schulman发推文称:

啊,我和Barret Zoph最近在斯坦福做了一场关于后训练以及分享开发ChatGPT经验的演讲,可惜没被录下来,但我们有PPT。

网友不语,只是一味点赞收藏。

69aa5bcf70c1799161230b5ececd2c4d.png

有曾在现场的网友亲证,演讲质量真不戳。

5797a2cd3a798c0e88883143ff19e2b0.png

还有网友在感谢完俩人后想要更多:

如果能分享更多关于训练后阶段的最新进展,比如推理模型、DeepSeek RL等,那就太好了。

a7513414197b7fac0250fa9f5ea574de.png
99bec1f71ed3c03791510601e3690209.png

以下是这次的PPT~

ChatGPT后训练方法PPT版

5e5c2030f48e41965a7f678cc4efe04d.png

先是自我介绍。

Barret Zoph和John Schulman曾在OpenAI共同担任后训练联合负责人,从2022年9月开始合作,主要目标是开发一个对齐的聊天机器人,最初的团队被称为“RL”,只有少数几个人。

1eb3487352e3a317387f682051447210.png

接着介绍了后训练(Post-Training)阶段是什么:

后训练阶段是模型开发的最后一步,目的是让模型更像一个助手,遵循特定格式,并确保其适合实际生产环境,这一阶段通常与产品团队紧密合作。

bd613f156ef1e34ceda6b03f949e33c3.png

用几个具体例子,对比基础模型和后训练模型的区别:

59266469babbb1fba1bb4780e6ef4184.png

8b0119d70a2989036c9714207d33d71f.png

后训练VS预训练总的来说:

计算资源需求更低,迭代周期更快;使用基于人类反馈的强化学习(RLHF);教模型使用工具;塑造模型个性;引入拒绝/安全行为;行为严重依赖预训练阶段的泛化能力。

8be9d8c5525b2d6b9189bb94fdcf7d31.png

后训练包含三个主要组成部分:监督微调(SFT)、奖励模型(RM)训练、强化学习(RL)。

dea6008108ca32b74b84112fb03aa50d.png

以下是三个组成部分的具体介绍:

42339639a660d59f7fb94f395320b488.png
75383981996015744c7e0b74eabe28c1.png
7fac3743ea64a0f6b4e27c697cdeab63.png

随后回顾了ChatGPT和OpenAI后训练的早期发展历程。

包括GPT-3、GPT-3.5的发布、RL团队的工作、GPT-4的准备过程、决定发布ChatGPT的细节以及发布后意外成功,实现病毒式传播。

e65cd719b42c73479cdaa40016acb618.png

ChatGPT曾一度被大批涌来的用户挤崩:

dda24a788028310a2d797b0124a9c2c0.png

随时间推移,ChatGPT模型和功能逐渐更加复杂和多样化:

fbf8b66b3f8140365be987d65f8525ad.png

2022年12月最初版本和2025年1月版本的对比:

68a832334865268d7d4e374266c7ae29.png

添加了许多功能:

4d483b3a8a5d0469315a0834b09805d8.png

然后讲了在功能扩展和公司规模增长的背景下,如何通过主线模型(mainline model)设置来整合变化并降低风险,包括在较小规模上测试;在频繁的更新中逐步整合更改,如果发现问题能够迅速回滚到之前的版本。

a4dc772fd55c8d4dd6f587caebc43fc1.png

在这当中也出现了一些失误和挑战……

e1253fd02eab9ac9817b914e7b6ff15f.png

比如模型在生成文本时出现了很多拼写错误。

强化学习(RL)后发现拼写错误率有所上升,在监督微调(SFT)数据集中发现了拼写错误的提示。

最终通过对比过程改进,将两个生成的文本(completion 1和completion 2)进行比较,选择改进后的版本,专家会对比这两个文本,有时会写出改进后的版本。

71dd8f41188870047116abcd3d88cd1e.png

此外还有过度拒绝的情况。

bd57bed9fd8e68284738d747b3400114.png

早期的拒绝行为过于冗长:

6982eaaac7c15259d0c34ecdbf7a97bd.png

有一些方法比如通过改变时态,可以绕过模型的拒绝机制。

080c34876e0e21be03d4eabba27d88e7.png

俩人随后讲解了为何拒绝行为难以处理,有边界问题和人类数据问题。

解决方案包括配对数据、有针对性的边界示例、对标注数据进行分层处理。

d69642b81ee8ccd025acae968e652c98.png

另外,模型还会出现偏见。

c64b67b6343a80f826962722024f0bbe.png

还可能会生成虚假或误导性的内容。

16a57c4423ab8e39e663664eb66bbc18.png

在涉及品味、主观性和高投入的任务中,如何获取高质量人类反馈也是一大挑战。

通过人类与AI团队协作进行标注是解决方案之一。

ffd6b4147065adc393c308d9deec3f74.png

他们还探讨了不同来源的人类反馈在提示多样性、标签质量、领域、正确性、意图和合规性等方面的优缺点,并提出了如何利用它们各自优势问题。

dbf3f74eea500b7683dc036074a87f55.png

而要让模型按照我们的意愿行事,第一步是弄清楚我们想要什么。

俩人表示这一步出乎意料的难,要明确规范。

0aeb562256d12211bcdf786c7571fda8.png

ac0159ecb957fa4b53cdd28b4a820d12.png

d38fb291a238a9a5589d4949d78a7fbb.png

OpenAI2024年5月发布了模型规范。

318763b8b15f3610982bfe84621acf00.png

还有一个开放性问题,如何保持模型多样性和趣味性。

两人提到通过后训练迭代和模型蒸馏来保持或强化这些特性。

7808bf6e0ed39e0d7e1c7af441ecc11a.png

总结了以InstructGPT、Llama 3.1等为代表的“两个时代”的模型训练流程,包括从基础模型到对齐模型的训练步骤,最终目标是生成一个经过多次优化的对齐模型。

fe63582dcd52a38c84ba64e0c310ff20.png

提出了一个开放性问题,探讨如何在模型训练和优化过程中恢复并保持基础模型中的多样性和趣味性,包括不同的风格和世界观。

a4bcea9d3e9578d8355919fd1c46b3ee.png

最后他们推荐了一些关于后训练的论文和blog:

2742b91465d85da2104bcaa3eee107a9.png
c98b6c3b21023354435ba979651fc807.png

俩人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph离开OpenAI后,现在都在干什么——

被曝双双加入了OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。

Mira Murati去年9月官宣离职OpenAI,离职后不久,就在10月份,她被曝筹备新公司/AI实验室,吸金超1亿美元。

cd4e7aeb9c75093685b56ce933718bcd.png

Mira Murati已经挖到了20多位顶尖研究员和工程师投奔,都是来自OpenAI、谷歌、Anthropic等巨头。

这其中就包括Jonathan Lachman和Barret Zoph。

adfa0b5b4a587c1b47a672c56f7dcec9.png

John Schulman去年8月离开的OpenAI,先是加入了OpenAI竞争对手Anthropic,致力于LLM的对齐工作,短短六个月后再次离职,加入了Murati的创业项目,担任首席科学家。‍

40a294ca960a706e5efedbaf409eac6e.png

至于Barret Zoph,去年9月份和Mira Murati几乎同时离职,随后就加入了Mira Murati的团队,担任CTO。‍

afb172f1f867ecf552dc5834f4e4bc92.png

参考链接:
[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值