万字长文,2024AI行业的科研角力
©作者|Zhongmei
来源|神州问学
前言
吴恩达的网站在十月中旬发表了一篇名为《A Year of Contending Forces》的文章,该文章是围绕着一个名为《State of AI Report - 2024》的年度报告的总结和点评。该报告由Nathan Benaich和Air Street Capital团队制作,这是该报告的第七年,新报告记录了过去一年推动AI发展的强相互作用力:开源与专有技术、公共与私人融资、创新与谨慎,汇聚了来自于2024年的研究论文、新闻文章、财报等的亮点。本文将对原报告内容进行解读。今天将从报告的第97页开始,之前的内容请看之前连载的两篇
吴恩达:《State of AI report》展现2024的主要趋势和突破(一)
吴恩达:《State of AI report》展现2024的主要趋势和突破(二)
为什么觉得这篇报告重要?
该报告是从投资者的角度审视了上次报告之后的一年时间里AI的发展,力图分析其中的变化并挖掘出趋势。作者们深入研究了今年的研究发现、商业交易和政治动态,希望以此为下个一年的AI提供全面的分析。
报告中的关键信息
报告中考虑了以下关键维度:
●研究:技术突破及其能力。
●行业:AI的商业应用领域及其商业影响。
●政治:AI的监管,其经济影响以及AI不断演变的地缘政治。
●安全:识别和缓解未来高能力AI系统可能对我们造成的灾难性风险。
●预测:未来12个月会发生的事情
由于报告《State of AI Report - 2024》篇幅长达210+页,本篇将只涵盖行业的部分内容,余下的会在接下来陆续发出。
行业
NVIDIA不断压缩其产品发布周期
自2020年A100发布以来,NVIDIA一直在缩短其发布数据中心级GPU的间隔时间,同时GPU提供的TFLOPs显著增加。从A100到H100的时间线长度减少了60%,从H200到GB200又减少了80%。在此期间,TFLOPs增加了6倍。大型云计算公司正在大量购买这些GB200系统:微软的持有量在70万到140万之间,谷歌40万,AWS 36万。更有传闻指出,OpenAI自己至少拥有40万GB200。
基于更快的GPU和计算节点进行扩展
节点内(scale-up fabric)GPU之间的数据通信速度,以及节点之间(scale-out fabric)的速度,对大规模集群性能至关重要。NVIDIA基于过去的技术NVLink,在过去8年中,大幅度增加了每个链接的带宽、链接数量以及每个节点连接的总GPU数量。结合了自家的InfiniBand技术,NVIDIA领先一步将节点连接到大规模集群。与此同时,据报道,像腾讯这样的中国公司已经围绕制裁进行了创新,以实现类似的结果。他们的Xingmai 2.0高性能计算网络据说支持在单个集群中GPU数量超过10万个,可以将网络通信效率提高了60%,LLM训练效率提高了20%。话虽如此,但尚不清楚腾讯是否拥有如此规模的集群。
图1. Nvlink技术变化记录
Art or Science:运行大型集群仍然是中断的艺术和科学
Meta在发布他们的Llama 3模型家族时,分享了他们在预训练Llama 3 405B的54天期间每天经历的8.6次作业中断的分解分析。GPU往往比CPU更频繁地出现故障,而且并非所有集群都是一样的,所以持续监控是必不可少的。由于测试不足,错误配置和有缺陷的组件也经常发生。同时,低成本电力、可负担的网络费率和可用性至关重要
图2. 造成Llama3 405B训练中断的根本原因饼图
大公司寻求摆脱或削弱对NVIDIA的依赖
虽然大科技公司长期以来一直在生产自己的硬件,但是这方面的努力在加速进行,因为科技巨头们至少需要提高自己与NVIDIA的议价能。但这些硬件上的努力往往并未针对最具挑战性的工作负载。
谷歌以其TPU闻名,现已推出基于Armv9架构和指令集的Axion。这些芯片将通过云服务提供,面向通用工作负载,其性能比目前最快的基于Arm的通用实例高出30%。Meta发布了第二代自家AI推理加速器,比前一代的计算能力和内存带宽提升了两倍以上。这款芯片目前用于排名和推荐算法,但Meta计划将其能力扩展到生成性AI的训练。与此同时,OpenAI正在从谷歌TPU团队招聘人才,并与博通(Broadcom)讨论开发新AI芯片的事宜。据报道,Sam Altman还与包括阿联酋政府在内的主要投资者进行了洽谈,希望推动一项数万亿美元的计划,以促进芯片生产。
同时,借助NVIDIA的潮流,AI芯片挑战者正在争夺(风险资本和客户)的市场份额,且少数几家公司已经展示出一定的市场吸引力。
Cerebras以其Wafer-Scale Engine而闻名,这款处理器将整台超级计算机的计算能力集成到一个晶圆大小的处理器上。该公司已提交首次公开募股(IPO)申请,预计2024年上半年收入为1.36亿美元,同比增长15.6倍,其中87%的收入来自总部位于阿布扎比、由政府支持的G42。Cerebras已筹集超过7亿美元资金,客户包括计算密集型的能源和制药行业。该公司最近推出了一个推理服务,旨在为大语言模型(LLMs)提供更快的token生成。
与此同时,Groq在其AI推理专用的语言处理单元(Language Processing Unit)上完成了6.4亿美元的D轮融资,估值达到28亿美元。同时,Groq已与阿美石油、三星、Meta和绿色计算提供商Earth Wind & Power建立了合作伙伴关系。Cerebras和Groq,两家公司都将速度作为核心竞争力,并致力于云服务,其中Cerebras最近也推出了推理服务。这种做法帮助它们绕过了NVIDIA的软件生态系统优势,但同时也让它们面临云服务提供商这一强有力的竞争者。
软银开始建立自己的芯片帝国
以“大手笔”著称的软银正在进入这一领域,指派其子公司Arm在2025年推出首款AI芯片,并收购了陷入困境的英国初创公司Graphcore,收购价据传为6-7亿美元。软银在此前过早出售NVIDIA股份之后,开始打造自己的芯片帝国。当时,Arm已经是AI领域的一个重要玩家,但历史上,其指令集架构并不适合数据中心训练和推理所需的大规模并行处理基础设施,同时它还一直在与NVIDIA在数据中心业务和成熟软件生态系统方面的优势作斗争。尽管如此,Arm目前的市值已超过1400亿美元,市场对此并不感到担忧。据报道,Arm已与台积电等公司就制造问题展开谈判。
软银还收购了Graphcore,这家公司开创了智能处理单元(IPU)概念,这是一种比GPU和CPU更高效处理AI工作负载的处理器(尤其是在使用小规模数据时)。硬件本身具有高度复杂性,因此在生成AI应用崛起初期,它往往不是一个理想选择。Graphcore将在软银的支持下继续以Graphcore品牌半自主运营。与此同时,因未能就需求达成一致,软银与英特尔针对设计GPU挑战者的谈判停滞了。
美国商务部与芯片制造商展开“打地鼠”式的博弈</