GPT-4创造者:第二次改变AI浪潮的方向

8e11bda4755f4d10f51682c291620615.png

OneFlow编译

翻译|贾川、杨婷、徐佳渝
编辑|王金许

一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈,如今,这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。

不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在潜心打磨GPT-3.5。

在OneFlow去年3月发布的《深度学习崛起十年:“开挂”的OpenAI革新者》一文中,OpenAI联合创始人、首席科学家就介绍了那些现在业内人尽皆知的人类反馈的强化学习(RLHF)、AI对齐以及多模态等关键名词和基本思路。

只不过,那时业内似乎都在忙着比拼更大的模型参数,无暇顾及抑或并不在意OpenAI正在研究的工作,看过这个对话的人很少。

当然,即使看了他们的技术思路,相信他们能走通的人就更少了,能去真正实践的也只有他们自己。直到ChatGPT大获成功,同行也只好羡慕嫉妒拍自己大腿,并说上一句:不就是已有技术的组合。然后眼睁睁看着OpenAI一脚油门,甩出同行几条街。

作为GPT系列模型背后“组装者”和推动者,毫不夸张地说,没有Ilya Sutskever,就没有现在的ChatGPT以及GPT-4。他正在改变世界。

更惊人的是,十年前,他已经改变过一次世界。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关,他是AlexNet的作者之一,后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

在近期与英伟达CEO黄仁勋(GTC大会)以及Eye on AI播客的主持人Craig S. Smith的两场对话中,Ilya对此进行了解答。

对话中的Ilya像是AI研究者中的苦行僧。不同于Sam AltmanGreg Brockman两位创始人在交谈中表现出的异常敏捷的表达能力,Ilya的语速相对平缓很多,但他的思考要比说出口的内容更深远。当你问他能否解决GPT模型一本正经地胡说八道的问题时,他说,“让我们拭目以待”,这个回答让你感觉毛骨悚然的同时还会相信这家伙真的能做到。

就在业内其他团队正在研究怎么研发类ChatGPT追赶甚至“弯道超车”OpenAI时,GPT-5或许已经在路上了。在这之前,最好看看Ilya怎么思考AI及其未来发展方向,或许会启发我们提出更好的、不一样的发展路径。

OneFlow以QA形式对上述两场对话进行了编译整理,对于问题以下不作具体区分。(Craig的播客经授权后由OneFlow编译,内容转载请联系OneFlow获得授权。播客:https://www.eye-on.ai/)

1
AI界的“iPhone时刻”

Q:ChatGPT就是AI界的“iPhone时刻”,你是如何实现这一历史性转变的?

A:最开始,我们也不清楚该如何开展整个项目,而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时,这一领域的研究者还很少,我们当时的同事大多来自Google/DeepMind,他们有从业经验,但思路相对而言比较狭窄,有所束缚。

那时我们有两个大的基础想法,它们的影响一直延续到今天。第一个想法是通过压缩进行无监督学习。现在看来这是理所应当,但在2016年,无监督学习是一个还没有被解决的问题,也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题,但ChatGPT实际上确实压缩了训练数据,我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好,就必须要提取其中存在的所有隐藏信息,这就是关键所在。

这也直接导致了我们研究情绪神经元。OpenAI科学家Alec Radford训练LSTM来预测亚马逊评论的下一个字符时发现,如果你预测下一个字符足够好,LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果,也验证了下一个字符预测的想法。这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢?无监督学习的难点不在于数据,更多关于为什么要这么做,以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后,我们立即发现这个模型就是我们想要的,于是做出了GPT-1。

第二个想法就是强化学习。我有一个很强的信念是“越大越好”,OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗,目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习,再加上GPT技术基座,成就了今天的ChatGPT。

Q:有人认为,ChatGPT只是一个大型语言模型,但在我看来,那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行精调的?ChatGPT背后是否有多种系统进行支撑?

A:当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时,我们在做的其实是在学习一个世界模型。从表面看,神经网络只是在学习文本中的统计相关性,但实际上&#x

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值