OpenAI创始人:GPT-4的研究起源和构建心法

01c28c4a6db713311565d63e977d49d5.jpeg

OneFlow编译

翻译|杨婷、贾川、徐佳渝

三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。

三十年后的当下,以ChatGPT为代表的大模型问世了。起初人们拿它当玩具,直到ChatGPT的诞生与人类实现惊艳交互,自动生成文本信息,而刚刚发布的GPT-4更是进化成支持文本和图像的多模态大模型,还能理解图像、代码,目前已经接入到微软Office全家桶......

看到两者的共性了吗?

比尔·盖茨说,ChatGPT不亚于互联网的诞生。而OpenAI总裁、联合创始人Greg Brockman更直截了当:“我们会拿下Web 4.0。”在去年ChatGPT发布前与ScaleAI CEO Alexandr Wang的对话中他这样谈到。而在3月10日举办的SXSW 23大会的另一场对话上,他称:我们正在创建新型互联网或类似的东西。

多模态GPT-4更像往这一方向演化的雏形。在ChatGPT发布后,仅仅经过四个月的大约五次更迭,这个升级版模型展现出更震撼的效果和更大影响力。

这让一直在研究人类大脑运作机制的“深度学习教父”Geoffrey Hinton也不免感到激动:“毛毛虫提取营养物质,然后破茧成蝶。而人们已经萃取了数十亿理解的精华,GPT-4就是人类的'蝴蝶'(humanity's butterfly)。”他还评价了让ChatGPT大获成功的秘密武器:人类反馈的强化学习(RLHF)是在教育一个超自然早熟的孩子。

这使得人类与机器实现了动态互动,让机器的智能特征体现得更明显,不同于人类与传统互联网交互的静态方式。在Brockman看来,我们正走在一个充满活力的世界,AI将改变人们与信息互动的方式,它会理解并帮助你。换句话说,GPT模型在真正改变人机交互的方式。

0aab6a338a657bc1ee59c1b4bd96470e.png

GPT模型所取得的成就令人艳羡,不过这建立在OpenAI数年的技术探索和坚定信念上。

作为深度参与了GPT模型从0到1生产过程,以及推动GPT研究和工程落地的主要“幕后推手”,Brockman对此深有体会,“它并非试图像快速致富那样昙花一现,而是一直在缓慢积累价值,才有了指数级增长带来的巨大回报。

人们好奇包括GPT-4、ChatGPT在内的模型在爆发前所经历的蛰伏和执着,尤其是有志于打造类GPT模型的研究者们很想知道,GPT模型是如何从最初的胚胎想法逐步被OpenAI培育成孩子的?这个孩子又将如何长成AGI?它在可预见的未来对这个世界会带来哪些变革?

对于这些疑惑,问Brockman再合适不过了。此前,在SXSW 23以及与Alexander Wang的两场对话中,他对此进行了详细阐述,OneFlow按QA形式进行了编译整理。(内容转载请联系OneFlow获得授权。)

1

ChatGPT的爆火

Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?

A:ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。

GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起,这篇论文的思想很新颖,不过很多人可能已经忘了。

OpenAI研究员Alec Radford对语言非常感兴趣,并致力于聊天机器人的研究。我们真的很喜欢Alec,非常支持他在我们去调研严肃项目时做任何他想做的事。

当时他负责的一个项目一直在训练LSTM模型,以此来预测亚马逊商品评价中的下一个字符。该模型能预测下一个字符,了解评价类型,还会像机器人一样学习,不过它也并非无所不知。

我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。

我们必须不断去推动。2017年底,Transformer问世,当时OpenAI联合创始人Ilya Sutskever立即发现这正是OpenAI一直在期待的模型。因此,尽管当时Transformer还并不完善,但我们基于它相继研发了GPT模型,基于对好的和糟糕的事实进行训练,以预测给定单词序列的下一个词。然后使用强化学习,让人类引导模型找到正确的答案。

我们内部运行的算法就是通过这些小方法来获取生存迹象(signs of life)。对于特定的数据集,必须非常

  • 8
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值