为什么英伟达的人工智能霸主地位只是暂时的？-CSDN博客

本文链接：https://blog.csdn.net/qq_40268378/article/details/138537901

英伟达是一家了不起的公司，几十年来一直执行逆向愿景，并且由于其在人工智能革命中的核心作用，理所当然地成为地球上最有价值的公司之一。我想解释为什么我认为在未来几年内它在机器学习领域的领先地位还远未稳固。为此，我将讨论 Nvidia 当前主导地位背后的一些驱动因素，以及它们未来将如何变化。

现在

这就是为什么我认为英伟达现在赢得如此艰难。

#1 – 几乎没有人运行大型机器学习应用程序

除了一些大型科技公司之外，很少有公司能够在生产中实际运行大规模人工智能模型。他们仍在研究如何开始使用这些新功能，因此主要成本围绕数据集收集、培训硬件以及模型作者的工资。这意味着机器学习的重点是训练，而不是推理。

#2 – 所有 Nvidia 替代品都很糟糕

如果您是创建或使用 ML 模型的开发人员，那么使用 Nvidia GPU 比 AMD OpenCL 卡、Google TPU、Cerebras 系统或任何其他硬件更容易、更省时。软件堆栈更加成熟，有更多的示例、文档和其他资源，更容易找到有 Nvidia 经验的工程师，并且与所有主要框架的集成也更好。竞争对手没有任何现实的方法可以击败英伟达建立的平台效应。当前的市场是赢家通吃，这是有道理的，他们就是赢家。

#3 – 研究人员有购买力

雇用机器学习研究人员非常困难，任何有经验的人现在都可以选择工作机会。这意味着他们需要保持快乐，而他们要求的事情之一就是使用 Nvidia 平台。这就是他们所知道的，他们对此很有成效，选择替代方案需要时间，并且不会产生就业市场所看重的技能，而使用他们熟悉的工具来开发模型却可以。由于聘用和留住研究人员的成本非常高，因此在购买硬件时，他们的偏好会被优先考虑。

#4 – 训练延迟规则

根据经验，模型需要在大约一周内从头开始训练。从 AlexNet 的早期开始，我就发现这一点是正确的，因为如果迭代周期变得更长，就很难进行实证测试和原型设计，而这对于实现准确性目标仍然至关重要。随着硬件变得越来越快，人们构建更大的模型，直到训练再次花费大致相同的时间，并通过更高质量的模型而不是减少总训练时间来获得好处。这使得购买最新的 Nvidia GPU 非常有吸引力，因为您现有的代码大部分都可以工作，而且速度更快。从理论上讲，竞争对手有机会以更低的延迟获胜，但他们的软件堆栈状态不可避免地不佳（CUDA 已有数十年的投资），这意味着这主要是一种幻想。

将会发生什么变化？

所以，希望我已经提出了一个令人信服的案例，证明英伟达的成功背后有强有力的结构性原因。以下是我对未来几年这些情况变化的看法。

#1 – 推理将占主导地位，而不是训练

几年前有人告诉我“培训成本随着研究人员的数量而变化，推理成本随着用户的数量而变化”。我从中得出的结论是，在未来的某个时刻，任何公司用于根据用户请求运行模型的计算量将超过他们用于培训的周期。即使单次训练运行的成本很高并且运行推理很便宜，但世界上有如此多的潜在用户拥有如此多的不同应用程序，这些推理的累积总数将超过训练总数。研究人员的数量永远都是有限的。

对于硬件来说，这意味着优先事项将转向降低推理成本。许多机器学习研究人员将推理视为训练的一个子集，但这在某些基本方面是错误的。在推理过程中组装大量输入通常非常困难，因为该过程会在延迟与吞吐量之间进行权衡，而延迟几乎始终是面向用户的应用程序的关键。小批量或单输入批量会极大地改变工作负载，并需要非常不同的优化方法。还有很多东西（例如权重）在推理过程中保持不变，因此可以受益于权重压缩或恒定折叠等预处理技术。

#2 – CPU 在推理方面具有竞争力

我什至没有在上面的 Nvidia 替代品中列出 CPU，因为它们的训练速度仍然慢得可笑。主要的桌面 CPU（x86、Arm，也许很快就会有 RISC-V）受益于数十年的工具链投资。他们拥有比 Nvidia 更成熟的开发工具和社区。它们的每个算术运算也比任何 GPU 便宜得多。

老一辈人会记得互联网的早期，当时建立一个网络公司的大部分成本是数百万美元，从 Sun 等公司购买一堆高端网络服务器硬件。这是因为它们是唯一能够可靠且低延迟地提供网页服务的现实平台。他们拥有可以买到的最快的硬件，当整个站点需要安装在一台机器上时，这一点很重要。 Sun 的市场份额因软件的推出而迅速被蚕食，这些软件可以将工作分配给大量单独能力较差的机器，即便宜得多的商品 x86 机器。

目前很难以类似的方式分配培训。工作负载使得将工作分配到紧密互连的几个 GPU 成为可能，但连续更新的模式使得通过低端 CPU 分片来减少延迟是不现实的。但对于推理而言，情况并非如此。模型权重是固定的，并且可以在初始化时轻松地在许多机器上复制，因此不需要通信。这使得大量商用 PC 对于依赖 ML 推理的应用程序非常有吸引力。

#3 – 部署工程师获得力量

随着推理成本开始在训练中占据主导地位，降低这些成本将会面临很大的压力。研究人员将不再是最高优先级，因此他们的偏好将不再那么重要。他们将被要求做一些个人不太兴奋的事情，以简化生产。随着所涉及的技能得到更广泛的了解，未来几年还将有更多有能力培训模型的人进入劳动力市场。这一切都意味着研究人员的企业权力将缩小，部署团队的需求将得到更高的优先级。

#4 – 申请费用规则

当推理在整个人工智能预算中占主导地位时，硬件和工作负载要求就非常不同。研究人员重视快速实验的能力，因此他们需要灵活性来原型化新想法。应用程序通常相对不频繁地更改其模型，并且一旦研究人员提出满足其需求的东西，可能会使用相同的基本架构多年。我们可能几乎正在走向这样一个世界：模型作者使用专门的工具，例如用于数学算法的 Matlab，然后将结果交给部署工程师，由他们手动将结果转换为对应用程序更有效的东西。这是有道理的，因为如果模型架构保持不变（即使权重发生变化），任何成本节省都将在很长一段时间内成倍增加。

这对未来意味着什么？

如果你相信我上面的四个预测，那么就很难逃脱这样的结论：英伟达在整个人工智能市场的份额将会下降。该市场将大幅增长，因此如果他们的绝对单位数量继续增长，我不会感到惊讶，但我看不出他们目前的利润率将如何持续。

我预计这一转变的赢家将是 x86 和 Arm 等传统 CPU 平台。推理需要紧密集成到传统业务逻辑中才能运行最终用户应用程序，因此很难看出即使是专门用于推理的硬件也可以跨总线运行，并涉及延迟。相反，我希望 CPU 能够获得更紧密集成的机器学习支持，首先作为协处理器，最终作为专用指令，例如浮点支持的发展。

在个人层面上，这些信念推动了我自己的研究和创业重点。在接下来的几年里，改进推理的影响将会如此之大，但与训练相比，它仍然让人感觉被忽视了。但有迹象表明这种情况正在改变。像r/LocalLlama这样的社区主要专注于改进推理， GGML的成功表明人们对以推理为中心的框架有多大的兴趣，而一些通用模型的传播增加了推理优化的回报。我对边缘如此着迷的原因之一是，它是距离商用 PC 最接近的环境，我认为未来大多数云 AI 将运行在商用 PC 上。早在 2013 年，我就最初编写了Jetpac SDK，以在 100 个 m1.small AWS 服务器集群上加速计算机视觉，因为这比在数百万张图像上运行推理的 GPU 实例更便宜、更快。直到后来我才意识到它非常适合移动设备。