探究GPT-5:下一代AI模型的未来

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

先简单介绍一下OpenAI的成功历程以及GPT-5所承受的巨大压力。四年前,2020年,GPT-3震惊了科技行业。像谷歌、Meta和微软这样的公司急于挑战OpenAI的领先地位。尽管它们在几年后推出了自己的产品(如LaMDA、OPT、MT-NLG),但仍然滞后。到2023年初,在ChatGPT成功的推动下(这使得OpenAI备受关注),他们准备发布GPT-4。再次,其他公司纷纷追赶OpenAI。一年后,谷歌推出了Gemini 1.5,Anthropic推出了Claude 3,Meta推出了Llama 3。OpenAI即将宣布GPT-5,但竞争对手到底有多近?

差距在缩小,比赛再次陷入僵局,因此每个人——客户、投资者、竞争对手和分析师——都在期待OpenAI,看他们能否第三次跳跃,推动未来发展一年。这就是GPT-5的隐含承诺;OpenAI希望在与历史上最强大的科技公司的竞争中保持影响力。想象一下,如果期望没有得到满足,AI界将会多么失望(如比尔·盖茨等内部人士认为可能会发生的情况)。

在这种充满活力和期待的环境中,GPT-5正在酝酿。一旦出现错误,每个人都会跳出来批评OpenAI。但如果GPT-5超出我们的预期,它将成为未来几年AI拼图中的关键部分,不仅对OpenAI及其相对新的商业模式如此,对投资者和用户也是如此。如果发生这种情况,Gemini 1.5、Claude 3和Llama 3将再次陷入讨论的边缘,OpenAI将再次松一口气。

为清楚起见,本文分为三部分。

首先,我写了一些关于GPT-5的元信息:其他公司是否会有回应,关于版本编号的疑虑(例如GPT-4.5与GPT-5),以及我称之为“GPT品牌陷阱”的东西。如果你只想了解GPT-5本身,可以跳过这一部分。

其次,我编制了一份信息清单,包括数据点、预测、泄露、暗示和其他揭示GPT-5细节的证据。本节专注于引用来源(在模糊时添加我的解释和分析),以回答两个问题:GPT-5何时发布,它有多好?

第三,我通过跟踪线索探索了我们对GPT-5尚未官方确认的领域(即使是泄露也没有):扩展规律(数据、计算、模型规模)和算法突破(推理、代理、多模态等)。这都是有根据的推测,所以这是最有趣的部分。

第一部分:关于GPT-5的一些元信息

GPT-5模型类别

从2023年3月到2024年1月,当你谈论跨学科的最先进AI智能或能力时,你在谈论的是GPT-4。当时没有什么可以与之相比的。OpenAI的模型独树一帜。

这种情况从2月起改变了。谷歌的Gemini(1.0 Ultra和1.5 Pro)和Anthropic的Claude 3 Opus都是GPT-4级别的模型(即将推出的Meta Llama 3 405B仍在训练中,也是GPT-4级别的)。虽然迟到了,但这些竞争者最终来了。根据使用情况的不同,强弱各异,但三者在性能上大致相当。

这种新现实以及早期用户普遍认为Claude 3 Opus比GPT-4更好的共识(在最近的GPT-4 Turbo升级之后也许不再如此)或Llama 3 405B的评估已经显示出强劲的中间检查点,已经对OpenAI的领导地位产生了怀疑。

但我们不应忘记,OpenAI和其他公司之间有一年的差距;以AI进步的速度来看,GPT-4已经是一个旧模型。诚然,最新的GPT-4 Turbo版本并不旧(于4月9日发布)。然而,很难争辩说,将GPT-4版本之间的温和渐进改进与谷歌、Anthropic或Meta推出的全新最先进模型相提并论是合理的。GPT-4的骨架已有1.5年之久;这在与Gemini、Claude和Llama相比时尤为重要,因为它们肯定在更深层次上利用了最新的研究(例如,架构变化),这只是通过更新微调无法实现的。

有趣的问题是:OpenAI在构建GPT-5的过程中是否在暗中保持了其优势?还是其竞争对手终于赶上来了?

一种可能性是,谷歌、Anthropic和Meta已经尽其所能:Gemini 1.0/1.5、Claude 3和Llama 3是他们目前的最佳水平。我认为这种可能性不大(这里我会略过Meta的情况,因为他们的情况比较独特,需要单独分析)。让我们从谷歌开始。

谷歌在发布Gemini Advanced(使用1.0 Ultra后端)一周后宣布了Gemini 1.5。他们只是让我们一瞥Gemini 1.5的能力;他们宣布了中间版本1.5 Pro,这已经是GPT-4级别,但我不认为这是他们的最佳状态。我相信Gemini 1.5 Ultra已经准备好了。如果他们还没有发布,那是因为他们已经学到了OpenAI自早期以来一直在利用的一个教训:时机掌握得当是成功的关键。生成性AI的竞争实在是太广泛传播了,无法忽视这一部分。

考虑到1.0 Pro和1.0 Ultra之间存在巨大差距,合理推测Gemini 1.5 Ultra将比1.5 Pro显著更好(不过谷歌还需要改进命名部分)。但Gemini 1.5 Ultra到底有多好?是否能达到GPT-5的水平?我们不得而知,但鉴于1.5 Pro的评估分数,这是可能的。

值得注意的是,Gemini 1.0达到GPT-4级别并非偶然——这不是因为遇到了瓶颈或谷歌的局限,而是预定计划的一部分,告诉世界他们也能创造这种AI(顺便提醒一下,构建模型的团队并不是负责营销部分的团队,谷歌在这方面经常失败)。

Anthropic的情况对我来说并不那么清楚,因为他们比谷歌和OpenAI更不喜欢媒体报道,但没有理由排除他们的可能性,尤其是考虑到Claude 3的表现略优于GPT-4,难以相信这纯属巧合。支持Anthropic的另一个关键点是,它成立于2021年。一个世界级的AI初创公司需要多长时间才能在最高水平上竞争?伙伴关系、基础设施、硬件、训练时间等都需要时间,而Anthropic正是在OpenAI开始训练GPT-4时刚刚起步。因此,如果Claude 4比预期更早发布,并且能与OpenAI的GPT-5相媲美,我不会感到惊讶。

我看到的模式很清晰。对于每一代新的最先进模型(首先是GPT-3级别,然后是GPT-4级别,接下来是GPT-5级别),领先者与其他人的差距都在缩小。原因显而易见:顶级AI公司已经学会了如何可靠

地构建这项技术。构建最先进的大型语言模型(LLM)已是一个解决的问题。这不再是OpenAI的秘密。起初,他们有优势,因为他们发现了一些其他人尚未掌握的东西,但那些其他人已经赶上了。

即使公司善于将商业秘密保密,科技和创新最终也会在可能和可负担的范围内趋同。GPT-5级别的模型可能会有一定程度的异质性(就像GPT-4级别一样),但他们的方向是一致的。

如果我没错,这就削弱了GPT-5本身的重要性——这就是为什么我认为这篇14,000字的分析应该被更广泛地解读,而不仅仅是作为对GPT-5的预览——并将重点放在整个模型类别上。这是好事。

GPT-5还是GPT-4.5?

在3月初有传言称,GPT-4.5泄露了(公告,而不是权重)。搜索引擎抓住了这个消息,然后OpenAI删除了它。网页上写着“知识截止日期”(模型对世界状态的了解截至何时)为2024年6月。这意味着假设的GPT-4.5将训练到6月,然后经历数月的安全测试、保护和红队攻击,推迟到年底发布。

如果这是真的,是否意味着今年不会发布GPT-5?可能,但不一定。我们需要记住,这些名称——GPT-4、GPT-4.5、GPT-5(或其他名称)——只是OpenAI认为达到一定能力水平的占位符。OpenAI一直在改进其模型,探索新的研究方向,进行不同计算级别的训练运行,并评估模型检查点。构建新模型不是一个简单直接的过程,而需要大量的试验和错误,调整细节,以及可能意外取得好结果的“YOLO运行”。

经过所有的实验,当他们感觉准备好了,就会进行大规模训练运行。一旦达到“足够好”的性能点,他们就会根据最合适的名称发布它。如果他们将GPT-4.5称为GPT-5,或者反之,我们不会注意到。这种逐步检查的过程也解释了为什么Gemini 1.0/1.5和Claude 3可以略微超出GPT-4,而这并不意味着LLM的瓶颈。

这意味着,所有我引用的谈论“GPT-5发布”的消息来源可能实际上是在谈论GPT-4.5或一些具有不同名称的新事物,而他们自己却没有意识到这一点。也许,GPT-4.5的泄露将知识截止日期定为2024年6月,在经过一些改进后会变成GPT-5(也许他们试图达到GPT-4.5级别,但没能完全达到,不得不放弃发布)。这些决定会根据内部结果和竞争对手的动作随时改变(也许OpenAI没预料到Claude 3在3月会成为公众首选模型,因此决定放弃GPT-4.5发布)。

这里有一个强有力的理由认为不会发布GPT-4.5:在竞争如此激烈和审查如此严格的情况下,进行.5版本发布没有意义(尽管Sam Altman表示他想加倍推进迭代部署,避免震惊世界,给我们时间适应,等等)。

人们会无意识地将每次新的大版本发布视为“下一个模型”,无论编号如何,并根据他们的期望进行测试。如果用户觉得不够好,他们会质疑为什么OpenAI不等到.0版本。如果他们觉得很好,那么OpenAI会想是否应该将其命名为.0,因为现在他们必须做出更大的飞跃才能获得可接受的.0模型。并非所有事情都是客户想要的,但生成性AI现在更像是一个行业而非科学领域。OpenAI应该争取发布GPT-5模型,并确保它足够好。

当然也有例外。OpenAI发布了GPT-3.5模型,但如果你想想,它是一个低调的变化(后来被ChatGPT所掩盖)。他们没有像发布GPT-3和GPT-4那样大肆宣扬,甚至比发布DALL-E和Sora还要低调。另一个例子是谷歌在发布Gemini 1 Ultra一周后发布Gemini 1.5 Ultra。谷歌想通过连续发布两个超过OpenAI最佳模型的版本来加倍其胜利。然而,Gemini 1 Ultra并不比GPT-4好(人们期望更多,而不是一个狡猾的演示),Gemini 1.5被OpenAI几小时后发布的Sora推到一边(谷歌在营销策略方面还有很多要向OpenAI学习)。无论如何,OpenAI需要一个充分的理由发布GPT-4.5。

GPT品牌陷阱

我在本节中最后要提到的是GPT陷阱:与其他公司不同,OpenAI已经将其产品与GPT缩写紧密关联,这不仅是一个技术术语(如最初所示),还是一个具有声望和力量的品牌,难以放弃。GPT(生成预训练变换器)是一种非常具体的神经网络架构,随着新的研究突破,可能或可能不会存续。GPT能否摆脱“自回归陷阱”?你能否将推理赋予GPT或将其升级为代理?这尚不明确。

我的问题是:OpenAI是否仍会将其模型称为GPT,以保持人们普遍认同的AI品牌,还是会保持严谨,一旦技术含义被更好的事物所取代,就改用其他名称(如Q*或其他)?如果OpenAI坚持使用这个宝贵的缩写(如商标注册所示),是否会通过将未来锚定在过去而自我破坏?OpenAI有让人们错误地认为他们在与另一个聊天机器人互动的风险,而实际上他们可能手中持有的是一个强大的代理。只是一个想法。

第二部分:我们知道的关于GPT-5的一切

OpenAI何时发布GPT-5?

3月18日,Lex Fridman采访了Sam Altman。他透露了一个关于GPT-5发布日期的细节。Fridman问道:“所以,GPT-5什么时候发布?” Altman回答说:“我不知道;这是实话。”

我相信他的诚实,认为他的“我不知道”有不同的解释。我认为他确切知道OpenAI想要做什么,但生活中的不确定性让他有了诚实地说“不知道”的空间。Altman可能知道应该知道的所有事情,但他可能不说更多,因为首先,他们仍在决定是否发布中间版本GPT-4.5;其次,他们在衡量与竞争对手的距离;第三,他不想透露确切日期,以免给竞争对手机会在发布时抢风头,就像他们一直对谷歌所做的那样。

他犹豫了一下,回答GPT-5是否会在今年发布,但补充道:“我们今年会发布一个惊人的新模型;我不知道会叫什么。”我认为这种模糊性可以用上面“GPT-5这个名字是任意的”部分的论点来解释。Altman还说,他们“有很多其他重要的事情要先发布”(他可能指的是:公开发布Sora和Voice Engine,独立的网页/工作AI代理,更好的ChatGPT UI/UX,一个搜索引擎,一个Q*推理/数学模型)。因此,构建GPT-5是优先事项,但不是发布它。

Altman还说,OpenAI之前曾“没有做到不向世界发布令人震惊的更新”(例如第一个GPT-4版本)。这可以解释他对GPT-5发布日期模糊的原因。他补充道:“也许我们应该考虑以不同的方式发布GPT-5。”我们可以将其解释为手挥发言,但我认为这有助于解释Altman为何犹豫说出“我知道GPT-5何时发布但不告诉你”这样的话,这是公平和可以理解的。

这甚至可以解释最近GPT-4 Turbo版本(4月9日)的数学推理显著改进:也许他们正在通过在野外测试其部分(例如GPT-4的新数学/推理微调)以不同的方式发布GPT-5,以避免震惊世界,然后将它们整合成一个更强大的基础模型。这将同样不负责任,与Altman的话不一致。

让我们听听其他消息来源。3月19日,在Fridman-Altman采访的第二天,Business Insider发表了一篇题为“OpenAI预计将在年中发布‘显著更好’的GPT-5,消息人士称”的新闻文章,明确反驳了前一天Altman所说的内容。如果Altman不知道日期,非OpenAI的消息来源如何知道?如果OpenAI还有很多重要事情要发布,GPT-5怎么可能在年中发布?这些信息不一致。以下是Business Insider的原文:

由Sam Altman领导的生成性AI公司预计将在年中发布GPT-5,可能是在夏季,根据两位熟悉该公司的消息人士(Business Insider确认了他们的身份)。……其中一位熟

悉情况的人士说,OpenAI仍在训练GPT-5。训练完成后,将进行内部安全测试和进一步的“红队攻击”……

因此,3月19日GPT-5仍在训练(文章中的唯一数据点是事实)。让我们慷慨估计,假设训练已经完成(2024年4月),OpenAI已经在进行安全测试和红队攻击。那会持续多久才能准备部署?再次慷慨估计,假设与GPT-4一样(假设GPT-5可能更复杂,这是安全的下限)。GPT-4于2022年8月完成训练,OpenAI于2023年3月宣布。这是七个月的安全层。请记住,微软的Bing Chat已经在使用GPT-4。Bing Chat于2023年2月初宣布。因此,半年的时间。

总而言之,最慷慨的估计将GPT-5的发布日期推迟到今年夏季(6月似乎是AI发布的热点日期),最早也要到2024年10月——这是最好的情况!那是在选举前一个月。鉴于AI驱动的政治宣传的前车之鉴,OpenAI肯定不会这么鲁莽。

Business Insider所说的“GPT-5在年中发布”可能是一个错误,实际上指的是GPT-4.5(或者根本不指任何东西)?我已经说过,我不认为OpenAI会用4.5取代GPT-5的发布,但他们可能会增加这一发布作为中间的低调里程碑,同时明确表示GPT-5即将到来(与谷歌和Anthropic在发布其他东西之前竞争是发布4.5版本的好理由——只要GPT-5模型即将到来几个月后)。

这种观点与我们迄今为止分析的所有信息相一致:它解释了Altman的“我不知道GPT-5何时发布”和“我们有很多其他重要的事情要先发布”。这也符合迭代部署的双倍押注和震惊世界的新模型威胁。谈到选举,另一个GPT-5发布日期的候选时间是开发者大会前后(我最喜欢的预测)。去年,OpenAI在11月6日举办了第一次开发者大会,今年是选举后的第二天。

综合所有这些信息(包括理解到“GPT-5”是一个任意名称以及非OpenAI来源可能混淆即将发布的名称的情况下),我的赌注是:GPT-4.5(可能还有其他作为GPT-5预览的东西)将在夏季发布,GPT-5在选举之后发布。OpenAI将在未来几个月发布一些新东西,但不会是Altman所说的今年最大发布。(最近的事件表明更早的惊喜仍然可能。)3

GPT-5有多好?

这是每个人都在等待的问题。让我提前声明,我没有特权信息。这并不意味着你不会从本节中获得任何信息。它的价值在于两方面:首先,它汇编了你可能错过的来源;其次,它对信息进行了分析和解释,这可能会进一步揭示我们可以期待的内容。(在“算法突破”部分,我更深入地探讨了GPT-5可能集成的前沿研究成果。还没有官方信息,仅仅是线索和线索以及我自信地认为可以合理跟随的自信。)

几个月来,Altman一直在暗示他对GPT-5相对于现有AI的改进的信心。今年一月,在达沃斯世界经济论坛期间的一次私人对话中,Altman对韩国媒体《每日经济新闻》等新闻媒体表示(通过Google翻译):"GPT-2非常糟糕。GPT-3相当糟糕。GPT-4相当糟糕。但GPT-5会很好。"一个月前,他告诉Fridman,GPT-4“有点差劲”,GPT-5将“更聪明”,不仅在一个类别中,而是全面提升。

接近OpenAI的人也曾模糊地说过。Richard He通过Howie Xu说:"大多数GPT-4的限制将在GPT-5中得到解决",而未透露姓名的消息来源告诉Business Insider,"[GPT-5]非常好,显著更好。"所有这些信息都很好,但也很琐碎、模糊,甚至不可靠(在此刻,我们是否可以信任Business Insider的消息来源?)。

然而,Altman在与Fridman的对话中提到的一点是我们关于GPT-5智能的最重要数据点。他说:"我预计5与4之间的差距将与4与3之间的差距相同。"这一声明比其他声明更具信噪比(SNR)。如果它听起来同样神秘,那是因为它说的不是GPT-5的绝对智能水平,而是其相对智能水平,这可能更难分析。特别是:GPT-3→GPT-4=GPT-4→GPT-5。

要解释这个“等式”(承认仍然模糊),我们需要技术手段来解读它,并且需要非常了解GPT-3和GPT-4。这就是我为本节所做的(此外,除非发生重大泄漏,否则这是我们从Altman那里得到的最好的信息)。我只需要假设Altman知道他在说什么——他了解这些差距意味着什么——并且他已经知道GPT-5的智能水平,即使它还没有完成(就像Zuck知道Llama 3 405B检查点的性能一样)。基于此,我提出了三种解释(为简洁起见,我只使用模型编号,不带“GPT”):

第一个解读是4-5和3-4的差距是指在基准评估中的可比较跳跃,这意味着5将比4更聪明,就像4比3更聪明一样(这开始有点棘手,因为众所周知,评估是有问题的,但我们先把这个放一边)。这无疑是一个令人满意的结果,因为随着模型变得更好,攀登基准变得越来越困难。如此困难,以至于我怀疑这是否可能。不是因为AI不能变得如此聪明,而是因为这种智能会使我们的人类测量工具显得太短,即基准对GPT-5来说太容易了。

GPT-4技术报告

上图是一个4与3.5的比较(3会更低)。在某些领域,4没有太大改进,但在其他领域,它已经显著提升,以至于分数因过高而变得毫无意义。即使我们承认5不会在所有方面都变得更好,但在那些它确实变得更好的领域,它将超越基准所能提供的限制。这使得5无法达到与3-4相同大小的差距。至少如果我们使用这些基准。

如果我们假设Altman正在考虑更难的基准(例如SWE-bench或ARC),其中GPT-3和GPT-4的表现都很差(GPT-4在SWE-bench,GPT-3在ARC,GPT-4在ARC),那么让GPT-5展示类似的差距将是令人失望的。如果你采取为人类设计的考试(例如SAT、Bar、APs),你不能相信GPT-5的训练数据没有被污染。

第二种解释表明差距是指非线性的“指数”扩展规律(规模、数据、计算的增加),而不是线性性能的提高。这意味着5将继续2、3、4之前勾勒出的曲线,无论这对性能产生什么影响。例如,如果3有1750亿参数,而4有1.8万亿,那么5将有大约18万亿参数。但参数计数只是扩展方法中的一个因素,因此差距可能包括其他所有因素:他们使用了多少计算能力,喂给模型的训练数据量等等。(我在下一节中更深入地探讨了GPT-5与扩展规律的关系。)

这是Altman的一个更安全的声明(OpenAI控制这些变量)也是一个更明智的声明(涌现能力需要新的基准,之前的数据是不存在的,使得3→4与4→5的比较不可能)。然而,Altman说他预计这种差距,这表明他并不确定而这(例如,训练GPT-5所需的FLOPs数量),他会知道。

第三种可能性是Altman的差距指的是用户感知,即用户会觉得5比4好,就像他们觉得4比3好一样(问重度用户你会知道答案是“非常好”)。这是一个大胆的声明,因为Altman不可能知道我们会怎么想,但他可能是基于经验在说;这是他从初步评估中感受到的,他只是分享他的轶事评估。

如果这种解释是正确的,那么我们可以得出结论,GPT-5将令人印象深刻。如果对于那些最习惯于使用其以前版本的人(也是对期望最高且新技术已经失去新鲜感的人)来说,它确实感觉如此。如果我慷慨一点并且不得不赌哪种解释最正确,我会选择这个。

如果我不慷慨,有第四种解释:Altman只是在炒作他公司的下一个产品。OpenAI过去曾经交付过,但侵略性的营销策略一直存在(例如在谷歌发布Gemini 1.5后几小时发布Sora)。我们可以安全地默认这个,但我相信上述三种解释中有一些是真实的,特别是第三种。

OpenAI的目标如何塑造GPT-5

在进一步进入推测领域之前,让我分享一下我认为正确的框架,以了解GPT-5可以和不可以是什么,即如何区分有根据的推测和幻想。这有助于理解OpenAI处理AI的整体方法。我将其具体化到GPT-5,因为这是我们今天的主题。

OpenAI的目标是AGI,这个目标太模糊了,无法进行严肃的分析。除了AGI,OpenAI还有两个“非正式目标”(工具目标,如果你愿意),更具体和即时,是真正的瓶颈(从技术角度来看;产品方面还有其他考虑,例如“制作人们想要的东西”)。这两个是增强能力和降低成本。无论我们对GPT-5有何推测,必须平衡这两个需求。

OpenAI总是可以盲目地增强能力(只要其研究人员和工程师知道如何做),但这可能会在Azure Cloud上产生不可接受的成本,这将影响微软的合作伙伴关系(已经不像以前那样独家)。OpenAI不能成为一个现金消耗机器。DeepMind早期是谷歌的资金黑洞,但借口是“为了科学”。OpenAI专注于业务和产品,因此他们必须带来丰厚的利润。

他们总是可以降低成本(通过不同方式,例如定制硬件、压缩推理时间、稀疏性、优化基础设施和应用量化等训练技术),但盲目地这样做会削弱能力(2023年春季他们不得不放弃一个名为“Arrakis”的项目,该项目旨在通过稀疏性使ChatGPT更高效,因为表现不佳)。与其失去客户的信任,或者更糟糕的是投资者,宁愿多花钱。

总之,有了这两个对立的要求——能力和成本——在OpenAI优先级中的重要性(仅次于始终模糊的AGI),我们可以在没有官方信息的情况下缩小对GPT-5的期望范围——我们知道他们关心这两个因素。如果我们再加上限制其选择的外部因素:GPU短缺(尽管不像2023年中期那么严重,但仍然存在),互联网数据短缺,数据中心短缺,以及对新算法的迫切需求,OpenAI面临的挑战就更加严峻。

最后一个直接影响GPT-5的因素是它们在行业中的特殊地位。OpenAI是最知名的AI初创公司,在经济和技术上都处于领先地位,每次发布新东西时我们都屏息以待。所有人都在关注他们——竞争对手、用户、投资者、分析师、记者,甚至政府——所以他们必须做得很大。GPT-5必须超越期望,改变范式。尽管Altman说要避免震惊世界,但某种程度上他们必须震惊世界。即使只是一点点。

因此,尽管有成本和一些外部限制——计算、数据、算法、选举、社会影响——限制他们的极限,增强能力的无尽渴望和轻微震惊世界的需求将推动他们走得尽可能远。让我们看看这个极限有多远。

第三部分:我们不知道的关于GPT-5的一切

GPT-5与扩展规律

2020年,OpenAI提出了一种经验形式的扩展规律,自此以来一直定义着AI公司的路线图。主要观点是,三个因素足以定义甚至预测模型性能:模型大小、训练标记数量和计算/训练FLOPs(2022年,DeepMind修正了这些规律和我们对如何训练计算高效模型的理解,称为“Chinchilla扩展规律”,即最大的模型严重训练不足;你需要按照比例扩大数据集规模以充分利用现有计算资源,实现性能最佳的AI)。

扩展规律的底线(无论是OpenAI的原始形式还是DeepMind修正版本)意味着随着预算的增加,大部分预算应分配给扩大模型(规模、数据、计算)。即使这些规律的细节存在争议,但它们的存在,无论常数是多少,在这一点上已经毋庸置疑。

Altman在2023年声称“我们正处于巨型模型时代的末尾,我们将在其他方面改进它们。”这种方法塑造了GPT-4,并将无疑塑造GPT-5,而不放弃规模的一种方式是使其成为专家混合模型(MoE),而不是像GPT-3和GPT-2那样的大型密集模型。

MoE是一种巧妙的混合小型专业模型(专家),根据输入的性质通过一个门控机制激活(你可以将其想象为数学问题的数学专家,写作小说的创意专家,等等),这种门控机制也是一个神经网络,学习将输入分配给专家。在固定预算下,MoE架构相比于较小的密集对等体在性能和推理时间上都有改进,因为任何给定查询只激活一小部分专业参数。

Altman关于“巨型模型时代的终结”或从密集到MoE的转变是否与扩展规律相矛盾?一点也不。它如果有的话,是对规模教训的更聪明的应用,通过利用其他技巧,如架构优化(我误解了OpenAI使GPT-4成为MoE的原因)。在生成性AI(尤其是语言和多模态模型)中,规模仍然是王道,只因为它有效。你能通过在其他方面改进模型使其效果更好吗?那太好了!

在最高水平上竞争的唯一方法是以整体视角接近AI创新:如果更多的计算和数据可以弥合性能差距,那么进行更好的算法研究没有意义。如果你花几百万在H100上,而一个简单的架构或优化技术可以为你节省一半的钱,那也是不合理的。如果使GPT-5变得大十倍有效,那很好。如果使其成为一个超级MoE有效,那也很好。

Friedman问Altman创建GPT-5的主要挑战是什么(计算或技术/算法),Altman回答:“总是这些。”他补充道:OpenAI做得非常好的是“我们将200个中等大小的东西乘以一个巨大的东西。”4

人工智能一直是一个充满权衡的领域,但一旦生成性AI进入市场并成为一个盈利的行业,就增加了更多的权衡。OpenAI正在处理这一切。目前,找到更好路径的首选启发式方法是遵循Richard Sutton的《苦涩教训》建议,这是扩展规律的非正式表述。以下是我总结OpenAI处理这些权衡的整体方法的一句话:坚信扩展规律,但在有前景的研究面前保持开放态度。

GPT-5是这种整体视角的产物,因此它将充分利用扩展规律——以及其他任何使OpenAI更接近其目标的东西。在哪些方面规模定义了GPT-5?我的赌注很简单:所有方面。增加模型规模,增加训练数据集,增加计算/FLOPs。让我们做一些粗略的估算。

模型规模

GPT-5也将是一个MoE(AI公司现在大多在制作MoE,原因很好;高性能,高效推理。Llama 3是一个有趣的例外,可能因为它特别适用于本地运行的小版本,因此GPU有限者可以在有限的内存中运行它)。GPT-5将比GPT-4大(总参数计数,这意味着,如果OpenAI没有找到比MoE更好的架构设计,GPT-5将有更多或更大的专家,无论哪种混合性能和效率最佳;还有其他方法可以增加参数,但我认为这最合理)。

GPT-5到底有多大还不清楚。我们可以天真地推断参数计数增长趋势:GPT,2018年(1.17亿),GPT-2,2019年(15亿),GPT-3,2020年(1750亿),GPT-4,2023年(估计1.8万亿),但跳跃不符合任何明确的曲线(尤其是因为GPT-4是一个MoE,因此与其他不具备可比性)。另一原因是,这种天真的推断不起作用是,决定一个新模型的合理规模取决于训练数据集的规模和可以用来训练的GPU数量(记住我之前提到的外部限制;数据和硬件短缺)。

我发现其他地方发布的规模估算(例如2-5万亿参数),但我认为没有足够的信息来做出准确预测(我还是计算了我的估算,给你一些有趣的,即使它最终不超级准确)。

让我们看看为什么做出有根据的规模估算比看起来更难。例如,上述2-5万亿的数字是Alan Thompson基于以下假设得出的:OpenAI使用两倍的计算能力(“10,000→25,000 NVIDIA A100 GPU,一些H100”)和两倍的训练时间(“~3个月→~4-6个月”)来训练GPT-5与GPT-4。

GPT-5在11月已经在训练,而一个月前最终训练运行仍在进行中,因此两倍的训练时间是合理的,但GPU数量不对。在开始训练GPT-5时,尽管H100 GPU短缺,OpenAI已经可以访问大部分微软Azure云计算,即“10k-40k H100s”。因此,GPT-5可能比2-5万亿大3倍(我在下面详细记录了我的计算过程)。

数据集规模

Chinchilla扩展规律揭示,最大的模型严重训练不足,因此在没有更多数据喂给额外参数的情况下,使GPT-5比GPT-4更大是没有意义的。

即使GPT-5的大小相似(我不打赌,但不会违反扩展规律并且在新算法范式下是合理的),Chinchilla规律表明,仅仅增加数据也会带来更好的性能(例如,Llama 3 8B参数模型在15T标记上进行了训练,这严重“过度训练”,但在停止训练时它仍在学习)。

GPT-4(1.8万亿参数)估计已经在大约12-13万亿标记上进行了训练。如果我们保守估计GPT-5的大小与GPT-4相同,那么OpenAI仍然可以通过提供多达100万亿标记来改进它——如果他们找到收集那么多数据的方法!如果它更大,那么他们需要那些美味的标记。

OpenAI的一个选择是使用Whisper转录YouTube视频(他们已经在违反YouTube的TOS)。另一选择是合成数据,这已经是AI公司中的常见做法,并且随着人类互联网数据“用尽”,将成为常态。我相信OpenAI仍在榨取最后一滴可访问的数据,并寻找新方法来确保合成数据的高质量。

(他们可能已经找到了一种有趣的方法,通过不增加预训练标记的数量来提高性能。我在“推理”子部分的“算法突破”部分中探讨了这一点。)

计算

更多的GPU允许更大的模型和相同数据集上的更多轮次,这两者都能带来更好的性能(达到他们尚未发现的某个点)。要从这一点上得出一个粗略的结论,我们应该关注训练期间(GPT-4训练运行的时间跨度从2022年8月到2023年3月)和现在之间发生的唯一已知变化:OpenAI对Azure数千个H100的访问以及随之而来的计算FLOPs增加。

也许OpenAI还找到了进一步优化MoE架构的方法,并在相同的训练/推理成本下增加参数,也许他们找到了使合成AI生成数据成为高质量GPT-5标记的方法,但我们不能确定。Azure的H100s,然而,提供了一定的优势,我们不应忽视。如果有一个AI初创公司正在摆脱GPU短缺,那就是OpenAI。计算是成本发挥作用的地方,但微软目前负责,只要GPT-5带来优秀结果(而不是AGI)。

对GPT-5规模的估计

假设OpenAI使用了Thompson所说的不是25,000个A100s,而是25,000个H100s来训练GPT-5(微软云计算为OpenAI保留的“10k-40k H100s”的平均值)。概括而言,H100s在训练LLM方面比A100s快2倍-4倍(成本相似)。OpenAI可以在一个月内训练一个GPT-4大小的模型。如果GPT-5花了他们4-6个月的时间,那么结果估计其大小为7-11万亿参数(假设相同的架构和训练数据)。这比Thompson的估计大两倍以上。但,使其如此大的意义何在?我们不知道;OpenAI可能在今年又做出了架构或算法突破,以在不增加规模的情况下提高性能。

现在让我们假设推理是限制因素(Altman在2023年表示OpenAI在训练和推理方面都受GPU限制,但他更希望在后者上10倍效率,这是一个推测,推理成本最终会超过训练成本)。有了25,000个H100s,OpenAI在GPT-5与GPT-4方面有两倍的最大FLOPs、更大的推理批量大小,并且能够在FP8而不是FP16(半精度)上进行推理。这意味着推理性能提高了2倍-8倍。GPT-5可能大到10-15万亿参数,比GPT-4大一个数量级(如果现有的并行配置在推理时不会在这个规模上崩溃,我不知道)。OpenAI也可以选择使其效率提高一个数量级,这意味着更便宜(或两者的某种加权混合)。

另一个可能性,我认为值得考虑,因为OpenAI不断改进GPT-4,是将部分新的计算资源用于使GPT-4更高效/更便宜(甚至免费,取代GPT-3.5;可以梦想,对吧?)。我不会更多评论服务的价格(不确定GPT-5是否会在ChatGPT上),因为没有确切的规格,无法判断(规模/数据/计算是不确定性,但价格是二次不确定性)。这只是商业视角的推测:ChatGPT的使用没有增长,OpenAI应该做些什么来解决这个问题。5

GPT-5的算法突破

这是最有趣的部分(是的,甚至比上一个部分更有趣),正如趣味法则所规定的,也是最具投机性的。从GPT-4推断扩展规律到GPT-5是可行的,尽管很棘手。尝试预测算法进步,考虑到目前领域的高度不透明,是更大的挑战。

最佳启发是关注OpenAI相关人士,潜伏在高信噪比的地方,阅读顶级实验室的论文。我只部分做到了这些,所以请原谅任何离奇的声明。如果你已经看到了这里,你已经太深入我的妄想中了。所以感谢你的阅读。以下是我们可以期待的一些提示(即OpenAI一直在解决的问题):

这是Altman的营销,但我们可以从这种结构化的愿景中获取有价值的见解。6这些能力中的一些更多地体现在行为方面(例如推理、代理),而另一些则更多地体现在消费者方面(例如个性化)。所有这些都需要算法突破。7问题是,GPT-5是否会实现这种愿景?让我们逐一分析并做出有根据的猜测。

多模态

几年前,多模态还是个梦想。今天,它是必须的。所有顶级AI公司(无论是否追求AGI)都在努力让他们的模型具备捕捉和生成各种感官模式的能力。AI领域的人喜欢认为不需要复制所有使我们智能的进化特征,但大脑的多模态性是他们不能忽视的。两个例子:GPT-4可以处理文本和图像,并生成文本、图像和音频。Gemini 1.5可以处理文本、图像、音频和视频,并生成文本和图像。

显而易见的问题是:多模态的未来是什么?GPT-5(和下一代AI模型)将具备哪些额外的感官技能?我们可能天真地认为人类有五种感官,一旦这些都被集成,我们就完成了。这不正确,人类实际上还有更多的感官。是否所有这些对AI智能都必要?我们是否应该实现那些动物拥有而我们没有的感官?这些是有趣的问题,但我们谈论的是GPT-5,所以我坚持即时的可能性;OpenAI已经暗示解决的那些。

Voice Engine表明情感/人类合成音频已经相当实现。它已经集成到ChatGPT中,所以它将出现在GPT-5中(也许不是从一开始)。尚未解决但几乎是热点领域的是视频生成。OpenAI在2月宣布了Sora,但没有发布。《信息》报道说,谷歌DeepMind的CEO Demis Hassabis说“谷歌可能很难赶上OpenAI的Sora。”鉴于Gemini 1.5的能力,这不是对谷歌发布AI产品的限制的确认,而是对Sora作为壮举的认可。OpenAI会将其放入GPT-5吗?他们正在艺术家和TED中测试初步印象;一旦任何人都可以创建任何视频,将会发生什么,这是任何人的猜测。

The Verge报道Adobe Premiere Pro将集成AI视频工具,可能包括OpenAI Sora。我赌OpenAI将首先发布Sora作为独立模型,但最终将其与GPT-5合并。这将是对“不要震惊世界”的承诺的点头,鉴于我们对文本模型与视频模型的习惯。他们将逐步开放Sora的访问权限,就像他们以前对GPT-4 Vision所做的那样,然后将GPT-5具备生成(和

理解)视频的能力。

机器人

Altman在他的“AI能力”幻灯片中没有提到人形机器人或具身性,但与Figure的合作关系(以及你不应相信的滑稽演示,即使是真的)表明OpenAI对该领域的未来押注(注意多模态不仅仅是眼睛和耳朵,还有触觉和本体感觉以及运动系统,即行走和灵巧。某种程度上,机器人是多模态和代理之间的共同因素。

我最有信心的一种观点是,在AI圈子里不太被接受的是,身体是达到人类智能水平的必要条件,无论是硅基的还是碳基的。我们倾向于认为智能在我们的脑中,但这是对我们的身体(以及他人的身体)在感知和认知中扮演的关键角色的智力上的不公。Melanie Michell在《科学》杂志上写了一篇关于通用智能的评论,说到具身性和社会化:

许多研究生物智能的人也对所谓的“认知”方面的智能能否与其他模式分开并在一个无身的机器中捕捉到表示怀疑。心理学家已经证明,人的重要智能方面是基于个人的身体和情感经验。证据还表明,个体智能深受参与社会和文化环境的依赖。理解、协调和向他人学习的能力,可能比个人的“优化能力”更为重要。

我打赌OpenAI正在回到机器人领域(我们将看到GPT-5在多大程度上标志着这一转变)。他们放弃它并不是出于哲学信念(即使公司成员有时会说诸如“视频生成将通过模拟一切来引领AGI”,这表明身体是非必要的),而是出于实际考虑:没有足够的数据,模拟不够丰富,无法推断到现实世界,现实世界实验太昂贵且缓慢,Moravec悖论等等。

也许他们正在通过将工作外包给专注于此的合作伙伴来回到机器人领域。一个装有GPT-5,能够表现代理行为和推理——并且走得直——的Figure 02机器人将是一个巨大的工程壮举和奇观。

推理

这可能是GPT-5带来的前所未有的大亮点。Altman告诉Fridman,GPT-5将比以前的模型更聪明,这简短地说,它将具备更强的推理能力。如果人类智能与动物智能相比在一个方面脱颖而出,那就是我们可以推理。推理,简单定义,是将现有知识与新信息结合,通过遵循逻辑规则(如演绎或归纳)来推导出知识,以便更接近真相。这是我们建立世界模型(AI中一个热门概念)和制定计划实现目标的方式。简言之,这是我们构建文明奇迹的方式。

有意识的推理是困难的。准确地说,这对我们来说感觉很难。理所当然,因为它在认知上比我们做的大多数其他事情都要困难;在脑中计算4位数的乘积是一种仅限最聪明的头脑的能力。如果这么难,为什么天真计算器可以轻松地立即处理比我们知道的更大数字?这回到了Moravec悖论(我刚刚提到)。Hans Moravec观察到,AI可以轻松完成对我们来说看似困难的任务,如高数字算术,但却难以完成看似平凡的任务,如走直线。

但如果愚蠢的设备可以立即完成上帝级别的算术,为什么AI在解决新任务或问题的推理能力上比我们差这么多?为什么AI的泛化能力如此糟糕?为什么它在晶化智能方面表现出色但在流动智能方面表现糟糕?关于现阶段的最先进LLM(如GPT-4或Claude 3)是否能推理存在着争议。我认为有趣的数据点是,它们不能像我们那样深刻、可靠、稳健或通用地推理,但只能“以极有限的方式”,如Altman所说。(在MMLU或BIG-bench等“推理”基准中得分很高并不意味着具备人类般的推理能力;可以通过记忆和模式匹配捷径并且不提数据污染。)

我们可以争论这是一个“技能问题”或“采样可以证明知识的存在,但不能证明其不存在”,这都是公平和有效的理由,但无法完全解释GPT-4在例如ARC挑战中的绝对失败,人类可以解决。

所有这些都是为了引入我认为AI推理缺陷背后的深层技术问题。最大因素是AI公司过于专注于模仿学习,即从互联网获取大量人类数据并将其喂给大型模型,让它们通过模仿我们的写作和解决问题的方式来学习(这就是纯LLM的作用)。理由是,通过喂给AI数世纪人类创作的数据,它会学会像我们一样推理,但事实并非如此。

模仿学习方法有两个重要限制:首先,互联网上的知识主要是显性知识(知道什么),但隐性知识(知道怎么做)无法准确通过文字传达,所以我们甚至不尝试——你在网上找到的主要是复杂迭代过程的成品(例如,你读我的文章,但你不知道我不得不经历的几十个草稿)。我在代理部分再次回到显性-隐性区别。

其次,模仿只是人类儿童学习工具包中的一个工具。儿童还会实验,进行试错,自我玩耍——我们享有几种学习方式,不仅仅是通过模仿,通过与世界互动的反馈回路更新知识和集成机制将其叠加在现有知识上。LLM缺乏这些关键推理工具。然而,它们并不是AI中闻所未闻的:这是DeepMind的AlphaGo Zero在没有任何人类数据的情况下通过与自己对弈利用深度强化学习(RL)和搜索的结合所做的。

除了这种强大的试错机制,AlphaGo和AlphaGo Zero还具有LLM(GPT-4、Claude 3等)目前没有的另一特性:思考下一步该做什么的能力(这是一种世俗的方式,意味着它们使用搜索算法通过对比和整合新信息与先验知识来分辨坏的、好的和更好的选择,以实现目标)。分配计算能力以应对问题复杂性的能力是人类一直在做的(DeepMind已经测试过这种方法,并取得了有趣的结果)。这是Daniel Kahneman在他畅销书《思考,快与慢》中所称的系统2思维。Yoshua Bengio和Yann LeCun已经尝试赋予AI“系统2思维”能力。

我认为这些特性——自我对弈/循环/试错和系统2思维——是开始缩小AI与人类推理差距的有前途的研究方向。有趣的是,存在这些能力的AI,如DeepMind的AlphaGo Zero——还有AlphaZero和MuZero(甚至没有提供游戏规则)——与今天最先进的AI系统(如GPT-4)没有这些能力的事实形成对比。原因在于现实世界(甚至只是语言世界)比棋盘更难“解决”:一个不完美信息的游戏,不明确的规则和奖励,无限制的动作空间和近乎无限的自由度,是你在科学中会发现的最接近不可能的挑战。

我相信弥合推理游戏玩家AI与现实世界推理AI之间的差距是所有当前推理项目的目标(我相信Gemini已经有了这个,但我不认为它已经显示出令人满意的结果)。证据表明,OpenAI一直专注于通过将搜索和RL的力量与LLM结合来超越纯模仿学习。这就是关于Q*的推测和领先研究人员公开暗示的内容。也许要寻找OpenAI暗示的关键人物是Noam Brown,他是AI推理方面的专家,于2023年6月从Meta加入该公司。在他宣布的推文中他说:

多年来我一直在研究AI自我对弈和推理游戏,如扑克和外交。我现在将研究如何使这些方法真正通用。如果成功,我们可能有一天会看到比GPT-4强1000倍的LLM。2016年,AlphaGo在与李世石的比赛中取得了AI的里程碑。但关键在于AI在每步前“思考”约1分钟……如果我们能发现通用版本,收益可能巨大。是的,推理可能会慢1000倍,成本更高,但什么样的推理成本我们愿意支付一个新癌症药物?或黎曼假设的证明?

我猜他已经列出了所有这些,只要你有我提供的背景。最近,他发布了一条自删除的推文说:“通过更好的模仿学习人类数据,你不会获得超人的表现。”

在最近一次在红杉的谈话中,Andrej Karpathy,他最近离开了OpenAI,说了一些类似的话:

我认为人们还没有真正看到这个领域的可能性……我认为我们已经完成了AlphaGo的第一步。我们已经完成了模仿学习部分。还有AlphaGo的第二步,就是RL,还没有人做到……这是让它真正起作用并使其成为超人的部分。……模型需要自己练习……它需要弄清楚什么对它有用,什么对它没用[他暗示我们的教学方式并不适应AI的心理]。

Brown和Karpathy关于模仿学习极限的言论与DeepMind联合创始人Shane Legg在Dwarkesh Patel播客上所说的相呼应,再次提到AlphaGo:

要获得真正的创造力,你需要在可能性空间中搜索,找到这些隐藏的宝石[他在提到AlphaGo对李世石的第二局中的著名第37步]……我认为当前的语言模型……并没有做那种事情。他们确实是在模仿数据……人类的创造力……来自于互联网。

所以要超越模仿学习,你必须将其与搜索、自我对弈、强化学习等结合起来。这就是人们认为Q的意思。我相信Q就是这个意思。有几篇关于如何将搜索能力引入LLM或如何在游戏之间推广自我对弈的论文,但我还没有找到关于OpenAI如何增加GPT-5推理能力的确凿证据。

Q/GPT-5的推理是否会如上所述令人印象深刻?Yann LeCun说我们应该“忽略关于Q的胡言乱语”,声称所有顶级AI实验室都在研究类似的东西(技术在可能和可负担范围内趋同是合理的)。他指责Altman“长期自我欺骗”,批评Altman在董事会戏剧发生前一天对Q*可能的一次言论:“[第四次]我有幸在推开无知的面纱并推进发现的前沿时在场。”

但LeCun也可能在为Meta的工作辩护,或者对OpenAI获得Brown感到苦涩,Brown在LeCun的FAIR实验室创建了Libratus(扑克)和CICERO(外交)。(支持LeCun警告的观点,我们还应该注意到Karpathy说还没有完成,而Brown仅仅暗示他的未来工作,而不是已经存在的东西。)

就实际结果而言,考虑到我们现在对AI推理的背景和证据,Flowers的这条评论建议最新的GPT-4 Turbo版本是OpenAI当前的最先进状态。《信息》报道说Q可以解决以前未见过的数学问题,恰好,新的GPT-4 Turbo在数学/代码问题上取得了最大改进(数学任务提供了推理能力的最佳早期信号)。这也合理,OpenAI选择了这种低调预览,以通过GPT-4评估Q作为推理重点模型,作为一个中间“非震撼”的公开发布,在赋予GPT-5这种智能之前。

我打赌,GPT-5将是一个具有显著增强推理能力的纯LLM,借用一个类似Q*的RL模型的推理能力。9除此之外,OpenAI将继续探索如何融合这些仍然难以完全结合的研究路线。

个性化

我会简短说。个性化是关于赋予用户与AI更亲密的关系。用户不能将ChatGPT变成他们的定制助手,达到他们可能希望的程度。系统提示、微调、RAG等技术允许用户引导聊天机器人,但在AI对用户的了解和用户对AI的控制(以及发送到云端以获得服务器响应的数据方面)是不够的。如果你想让AI了解更多关于你的信息,你需要提供更多数据,这反过来降低了你的隐私。这是一个关键的权衡。

AI公司需要找到一个满足自己和客户的妥协方案,如果他们不希望客户冒险转向开源,即使那需要更多努力(Llama 3使这种转变比以往更有吸引力)。在权力和隐私之间有一个令人满意的中间地带吗?我不这么认为;如果你走大,就走云。OpenAI甚至没有尝试使个性化成为GPT-5的强项。原因之一:模型将非常大且计算密集,因此忘记本地处理和数据隐私(大多数企业不愿意将数据发送到OpenAI)。

有些东西除了隐私和设备上处理之外,还将解锁个性化的新水平(已经被其他公司实现,特别是谷歌和Magic,尽管只有谷歌公开发布了具有此功能的模型):数百万标记的上下文窗口。

当你从向ChatGPT提两个句子的问题,转变为可以在提示窗口中填充一个包含十年工作内容的400页PDF时,应用性有了很大的飞跃,以便ChatGPT可以帮助你检索其中可能隐藏的任何东西。为什么这之前没有实现?因为对这么多输入提示进行推理的成本变得无法承受,每增加一个单词成本成倍增加。这被称为“平方注意力瓶颈”。然而,似乎代码已经破解;谷歌和Meta的新研究表明平方瓶颈不复存在。

“问你的PDF”是一个很棒的应用程序,一旦PDF可以是无限长度,但有些新功能现在具有百万标记窗口以前没有:“问我的生活”类别的应用程序。我不确定GPT-5的上下文窗口大小是多少,但考虑到一个年轻的初创公司如Magic似乎已经在许多百万标记窗口上取得了良好结果,并且考虑到Altman明确提到个性化是必备的AI能力——OpenAI必须至少匹配这个赌注。

可靠性

可靠性是怀疑者的最爱。我认为LLM的不可靠性(例如幻觉)是人们看不清生成性AI的价值主张以致不愿付费,增长停滞和使用量达到顶峰的主要原因之一,也是一些专家认为它们是“有趣的干扰”而不是提高生产力(当它们确实提高时,并不总是顺利)。这不是每个人的LLM体验,但它足够突出,以至于公司不应否认可靠性是一个需要解决的问题(特别是如果他们希望人类在高风险类别案件中使用这项技术)。

可靠性是任何技术产品的关键,为什么在这些大型AI模型上如此难以搞定?我找到的一个有用的概念化方法是,这些东西如GPT-5既不是发明,也不是发现。最好的描述是发现的发明。即使是最贴近构建现代AI的人(更不用说用户或投资者)也不知道当你输入一个查询并得到一个输出时,内部发生了什么。(机制可解释性是一个旨在解决此问题的热门研究领域,但还处于早期阶段。如果你有兴趣,请阅读Anthropic的工作。)

这就像GPT-5及其同类是一个先进文明留下的古老装置,我们偶然在我们的硅考古挖掘中发现。它们是我们发现的发明,现在我们正在试图弄清楚它们是什么,如何工作,以及如何使其行为可解释和可预测。我们感知到的不可靠性仅仅是对不理解这些工件的下游后果。这就是为什么尽管客户流失和企业疑虑导致公司损失数百万,问题仍未解决。

OpenAI正试图通过重度保护(RLHF)、测试和红队攻击来使GPT-5更可靠和安全。这种方法有局限性。如果我们承认,如上所述,AI的推理能力不足是因为“采样可以证明知识的存在,但不能证明其不存在”,我们只需将同样的观点应用于安全测试:采样可以证明安全漏洞的存在,但不能证明其不存在。这意味着无论OpenAI进行多少测试,他们都无法确定他们的模型是完全可靠或完全安全的,能抵御越狱、对抗攻击或提示注入。

OpenAI会改善GPT-5的可靠性、幻觉和外部攻击向量吗?GPT-3→GPT-4的轨迹表明他们会。会解决它们吗?不要指望。

代理

这一部分,我认为,是整篇文章中最有趣的部分。到目前为止我写的所有内容,在某种程度上,都与AI代理相关(特别是推理)。关键问题是:GPT-5会具备代理能力吗,还是像以前的GPT版本一样,成为一个标准的语言模型,可以做很多事情,但不能制定计划并付诸行动以实现目标?这个问题之所以重要,有三个原因,我在下面逐一解析:首先,代理对智能的重要性不可低估。其次,我们知道一个原始版本的代理在某种程度上是可能的。第三,OpenAI一直在研究AI代理。

许多人认为代理——被描述为能够推理、计划和自主行动以实现某些目标,利用可用资源——是语言模型和人类级AI之间缺失的环节。代理,甚至超过纯粹的推理,是智能的标志。正如我们上面所见,推理

是达到目标的第一步——任何智能代理的关键能力——但不足。规划和在现实世界中行动(对于AI来说,模拟环境可以作为第一近似)是所有人类的技能。早期我们开始以显示有目标顺序推理能力的方式与世界互动。起初是无意识的,没有涉及推理(例如哭泣的婴儿),但随着我们成长,它变成了一个复杂的有意识过程。

解释代理对智能是必需的以及在真空中推理无用的一种方式是通过显性和隐性知识的区别。让我们想象一个强大的推理能力的AI,它被动地体验和感知世界(例如,一个物理专家AI)。通过阅读网上所有的书籍,AI可以吸收并生成大量显性知识(知道什么),这种知识可以形式化、传递并写在论文和书籍上。然而,无论AI在物理学上多么聪明,它仍然缺乏将所有这些公式和方程应用于,例如,为检测引力波的昂贵实验获得资金的能力。

为什么?因为那需要理解世界的社会经济结构,并在不确定的全新情境中应用这些知识,涉及许多变动因素。这种应用泛化能力超出了任何书籍涵盖的范围。这是隐性知识(知道怎么做);你只能通过做和直接向那些已经知道怎么做的人学习才能获得的知识。10底线是:没有AI可以在没有首先获得知道怎么做/隐性知识的能力的情况下,在世界中实现目标而变得智能。11

要获得知道怎么做的知识,人类会做事情。但要理解需要通过行动计划来实现目标,这需要反馈回路、实验、工具使用,以及将所有这些与现有知识库集成的方式(这就是AlphaZero超越模仿学习通过自我对弈所做的目标推理的关键)。因此,对于一个代理来说,推理是达到目的的一种手段,而不是目的本身(这就是为什么在真空中无用)。推理提供了新的显性知识,AI代理然后使用这些知识来计划和行动,以获得实现复杂目标所需的隐性知识。这就是智能的精髓;这是AI的最终形式。

这种代理智能与GPT-4、Claude 3、Gemini 1.5或Llama 3等LLM的对比明显,它们在满意地执行计划方面表现不佳(早期基于LLM的代理尝试如BabyAGI和AutoGPT或失败的自主实验是证据)。当前最好的AI是次代理或,使用更或少官方的术语,是AI工具(Gwern在AI工具与AI代理的二分法上有一个很好的资源)。

那么,我们如何从AI工具转变为能够推理、计划和行动的AI代理?OpenAI能否缩小GPT-4,一个AI工具,与GPT-5,一个潜在的AI代理之间的差距?要回答这个问题,我们需要从OpenAI对代理的当前关注和信念逆向推导,考虑是否有从那里出发的路径。特别是,OpenAI似乎确信LLM——或更广泛的标记预测算法(TPA),这是一个涵盖其他模式(例如DALL-E、Sora或Voice Engine)模型的总称——足以实现AI代理。

如果我们相信OpenAI的立场,我们首先需要回答这个问题:代理AI能否从TPA中涌现,而不需要获取隐性知识甚至手工推理特性?12

这些问题的理论基础是,一个伟大的AI预测器/模拟器——理论上可能存在——必须在某种程度上发展出一个内部世界模型,以做出准确的预测。这样的预测器可以通过对世界的深刻理解来绕过需要获取隐性知识。例如,你不通过书本学习骑自行车,你必须骑,但如果你可以以任意高的细节预测接下来会发生什么,那可能足以让你在第一次骑行和所有后续骑行中成功。人类做不到,但AI可以吗?13让我们在讨论真实AI代理示例之前,先解开这个问题。

标记预测算法(TPA)非常强大。如此强大,现代生成性AI完全建立在一个足够强大的TPA可以发展智能的前提下。14GPT-4、Claude 3、Gemini 1.5和Llama 3是TPA。Sora是TPA(其创建者称“通过模拟一切将引领AGI”)。Voice Engine和Suno是TPA。即使是不太可能的例子如Figure 01(“视频输入,轨迹输出”)和Voyager(一个使用GPT-4的AI Minecraft玩家)本质上也是TPA。但纯TPA可能不是做一切事情的最佳解决方案。例如,DeepMind的AlphaGo和AlphaZero不是TPA,但正如我在推理部分所述,是强化学习、搜索和深度学习的巧妙结合。

一个通过像训练GPT-4那样训练的GPT-5可以发展智能AI代理,还是说OpenAI需要找到一个完全不同的优化函数或甚至一个新的架构来使GPT-5成为代理?一个(大得多的)更好的GPT-4能否最终发展出代理能力,或者AI代理需要完全不同的东西?OpenAI早期成功背后的科学思维Ilya Sutskever对TPA的力量毫无疑问:

… 当我们训练一个大规模神经网络准确预测来自互联网上大量不同文本中的下一个词时……我们在学习一个世界模型……表面上看,我们只是学习文本中的统计关联,但事实证明,为了“仅仅学习”文本中的统计关联,以便很好地压缩它们,神经网络学习的是产生文本的过程的一些表示。这种文本实际上是世界的投影……这是通过准确预测下一个词所学到的。

Sora的创建者之一Bill Peebles在最近一次演讲中更进一步:

随着我们继续扩展这一范式[TPA],我们认为它最终将不得不模拟人类的思维。你只能通过拥有所有对象、人类等环境如何工作的内部模型来生成真正逼真的视频和真正逼真的动作序列。

你可能不接受这个观点,但我们可以安全地推断Sutskever和Peebles的论点来理解OpenAI是(内部辩论除外)一致的。如果成功,这种方法将揭穿AI需要捕捉隐性知识或特定推理机制以计划和行动实现目标并智能的观点。也许它只是全是标记。

我不买OpenAI的观点有一个原因:他们没有绕过隐性知识挑战。他们只是将问题移到其他地方。现在问题不是学习推理、计划和行动,而是模拟世界。他们想要解决的,字面意思,预认知。Peebles如此随意地谈论这个,以至于它似乎不重要。但是,创建一个完美的预测器/模拟器是否比创建一个能够在世界中计划和行动以实现目标的实体更难?创建一个可以模拟“真正逼真的动作序列”的AI是否可能,如Peebles在他的演讲中所说?我不认为如此——我不认为我们能构建那个,我也不认为我们可以评估这种能力。也许OpenAI对苦涩教训的信任和依赖走得太远了(也许我错了,我们拭目以待)。

无论如何,AI公司目前的选择是有限的——没有人知道如何构建计划/行动系统,尽管Yann LeCun仍在尝试——所以他们正在使用基于transformer的TPA(包括OpenAI)处理代理挑战,因为这是他们现有的最佳技术。让我们从现有原型开始,然后跳到我们所知的OpenAI的努力。

除了上面我提到的例子(例如BabyAGI、AutoGPT、Voyager等)之外,还有其他基于LLM的代理尝试。第一个引起我注意的是ChatGPT之前的。2022年9月,Adept AI宣布了他们称为动作Transformer的第一版本,通过观看人类的视频训练的“大规模transformer,用于使用数字工具”。他们发布了一些演示,但没有更多内容。一年前,两位联合创始人离开了公司,这绝对不是好兆头(《信息》报道Adept正在准备夏季推出AI代理。我们拭目以待)。另一家最近加入AI代理淘金热的年轻初创公司是Cognition AI,以创建Devin而闻名,“第一个AI软件工程师”(现在有一个开源表亲OpenDevin)。起初还不错,但后来一段名为“揭穿Devin”的评论视频发布并病毒式传播,揭露了Cognition对Devin能力的过度炒作。结果?Cognition不得不公开承认Devin不足以“在Upwork上接管混乱的任务”。

那些是纯粹的软件代理。还有另一个分支,承认更难实现:AI代理设备。最著名的例子是Rabbit R1和Humane AI Pin。R1的评论即将发布,所以我们等待他们(在这篇文章计划发布的同一天左右)。Humane AI Pin的评论上周发布,完全是毁灭性的。如果你没有读过我的“每周精选#71”,你可以在这里阅读The Verge的评论或观看Marques Brownlee的视频。

总之,考虑到以上所有证据,基于LLM的AI代理尚未成为现实。OpenAI能做得更好吗?

我们对OpenAI的代理尝试知之甚少。我们知道Andrej Karpathy在离开OpenAI之前正在“构建一种JARVIS”(如果他在最有前途的AI公司工作,为什么会离开呢?)Business Insider报道称,GPT-5将具有“调用由OpenAI开发的AI代理自主执行任务的能力”,这是非常模糊的。The Information本周早些时候报道了一些新信息:

OpenAI正在悄悄设计可以接管个人电脑并同时操作不同应用程序的计算机使用代理,例如将数据从文档传输到电子表格。另一方面,OpenAI和Meta正在开发第二类代理,可以处理复杂的基于网络的任务,例如创建行程和根据行程预订旅行住宿。

但即使这些项目成功了,这也不是我上面描述的具有类人自主能力的AI代理,能够计划和行动以实现目标。正如The Information所说,公司正在利用其营销能力来淡化概念,将“AI代理”变成一个“catch-all术语”,而不是退缩其野心或迎接技术挑战。OpenAI的Ben Newhouse表示,他们正在构建“可能是一个行业定义的零到一产品,利用我们即将推出的模型中的最新和最伟大的技术”。我们拭目以待。

作为这个代理子部分的结论,我认为OpenAI尚未准备好进行最大规模的AI代理发布。还有很多工作要做。TPA尽管是目前唯一的潜在解决方案(直到上面描述的推理挑战得到解决),但单靠它们不足以以人们认为可以用于严肃项目的方式实现所期望的代理能力。

我打赌GPT-5将是一个多模态LLM,就像我们之前见过的一样——一个改进的GPT-4。它可能会被系统包围,这些系统在GPT-4中还不存在,包括连接到AI代理模型以在互联网和设备上执行自主操作的能力(但它将远不及人类般AI代理的梦想)。虽然多模态、推理、个性化和可靠性是系统的特性(它们都会在GPT-5中得到改进),但代理是一个完全不同的实体。GPT-5不需要是一个代理就能享受代理的力量。它可能是一种原始的“AI代理管理器”,可能是我们共同认可的第一个。

OpenAI将在产品层面上整合GPT-5和AI代理以试水。他们也不会一次性发布GPT-5和AI代理队列(作为先例,GPT-4和GPT-4V被分开了一段时间)。我认为OpenAI认为代理能力比“仅仅”一个更好的多模态LLM更难控制,因此他们会更加缓慢地推出AI代理。我再重复一遍,用强调的方式,Newhouse上面的引述,以明确为什么我认为这是事实:“我们正在构建……可能是一个行业定义的零到一产品,利用我们即将推出的模型中的最新和最伟大的技术[强调我的]。”一个产品(AI代理)利用即将推出的模型(GPT-5)中的最伟大的技术。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值