OpenAI保持GPT-4架构封闭,不是因为对人类的某种存在风险,而是因为他们所构建的内容是可复制的。实际上,我们预计Google、Meta、Anthropic、Inflection、Character、Tencent、ByteDance、Baidu等公司在短期内将拥有与GPT-4一样甚至更强大的模型能力。
请不要误解,OpenAI具有令人惊叹的工程能力,他们所构建的东西令人难以置信,但他们所找到的解决方案并非魔法。这是一个优雅的解决方案,其中包含许多复杂的权衡。规模扩大只是战斗的一部分。OpenAI最持久的竞争优势在于他们拥有最多的实际应用、领先的工程人才,并且可以通过未来的模型继续超越其他公司。
我们从多个来源收集了关于GPT-4的大量信息,今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数数量、训练数据集组成、令牌数量、层数量、并行策略、多模态视觉适应、不同工程权衡背后的思考过程、实施的独特技术以及他们如何减轻与庞大模型推理相关的一些最大瓶颈。
GPT-4最有趣的方面是理解他们为什么做出某些架构决策。
此外,我们将概述在A100上训练和推理GPT-4的成本,以及在下一代模型架构中如何与H100进行扩展。
首先,让我们来看看问题陈述。从GPT-3到4,OpenAI希望扩大100倍,但问题是成本。密集的Transformer模型将无法进一步扩展。密集的Transformer是OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT等模型使用的模型架构。我们可以轻松地列举出使用这种相同架构训练LLM的50多家公司。这是一个不错的架构,但对于扩展来说有缺陷。
在GPT-4发布之前,我们曾讨论过训练成本与即将到来的AI砖墙之间的关系。在那里,我们揭示了OpenAI在GPT-4架构和各种现有模型的训练成本方面的高层次做法。
在过去的六个月中,我们意识到训练成本是无关紧要的。
当然,表面上看起来很疯狂,要花费数千万甚至数亿美元的计算时间来训练一个模型,但对于这些公司来说,这是微不足道的开支。这实际上是一项固定资本支出,在扩大规模方面始终能够取得更好的结果。唯一的限制因素是将计算规模扩展到人类可以获得反馈并修改架构的时间尺度上。
在未来的几年里,像Google、Meta和OpenAI/Microsoft这样的多家公司将在价值超过一千亿美元的超级计算机上训练模型。Meta每年在"Metaverse"上烧掉160亿美元,Google每年在各种项目上浪费100亿美元,Amazon在Alexa上损失超过500亿美元,加密货币在毫无价值的事物上浪费了1000亿美元以上。
这些公司和整个社会可以并且将会在创建可以训练单个巨大模型的超级计算机上花费超过一千亿美元。然后,这些巨大的模型可以以多种方式成为产品。这项工作将在多个国家和公司中复制。这是一场新的太空竞赛。与以前的浪费不同,现在的人工智能具有实实在在的价值,短期内将从人类助手和自主代理中获得。
扩展人工智能更重要的问题是推理。
目标是将训练计算与推理计算分离。这就是为什么有意义的训练超出Chinchilla最佳的范围,无论将要部署的模型如何。这就是为什么要使用稀疏模型架构;在推理过程中,并不需要激活每个参数。
真正的挑战是将这些模型扩展到用户和代理的成本太高。推理的成本比训练的成本高出多倍。这是OpenAI在模型架构和基础设施方面的创新目标。
大型模型的推理是一个多变量问题,对于密集模型来说,模型大小是致命的。我们在这里详细讨论了与边缘计算相关的问题,但数据中心的问题陈述非常相似。简单来说,设备永远无法拥有足够的内存带宽来实现大语言模型的特定吞吐量水平。即使带宽足够,边缘计算设备上硬件计算资源的利用率也将非常低。
在数据中心、云端,利用率是至关重要的。Nvidia之所以因其卓越的软件而受到赞赏,其中一半的原因是因为在GPU的整个生命周期中,Nvidia不断更新低级别软件,通过更智能地在芯片内部、芯片之间和内存之间移动数据,将FLOPS的利用率提高。
在大多数当前使用案例中,LLM推理的目标是作为实时助手运行,这意味着它必须达到足够高的吞吐量,使用户能够真正使用它。人类平均阅读速度约为每分钟250个词,但有些人甚至高达每分钟1000个词。这意味着您需要至少每秒输出8.33个令牌,但更接近每秒输出33.33个令牌以应对所有情况。
根据内存带宽的要求,一个兆参数的密集模型在最新的Nvidia H100 GPU服务器上数学上无法实现这种吞吐量。
每个生成的令牌都需要将每个参数从内存加载到芯片上。生成的令牌然后输入到提示中,并生成下一个令牌。此外,为注意力机制流式传输KV缓存还需要额外的带宽。
这个图表假设由于无法融合每个操作、注意机制所需的内存带宽以及硬件开销等原因,效率等同于参数读取。实际上,即使使用了像Nvidia的FasterTransformer库这样的"优化"库,总开销也更大。
上面的图表展示了推理一个LLM所需