推动AI的发展：新型AI硬件加速器的爆炸式增长-CSDN博客

人工智能的快速发展正在推动用于机器学习和深度学习的新型硬件加速器的爆炸式增长。

有人将此称为“ 寒武纪大爆炸 ”，这是对当前热衷创新时期的恰当比喻。它指的是大约5亿年前的时期，当时基本上所有多细胞动物中的生物“人体计划”都首次出现。从那时起，这些生物-包括我们自己-散开以占领，利用和彻底改变地球上的每个生态位。

[在InfoWorld上深入学习机器学习： 11种必备的机器学习工具。 • 掌握机器学习的13个框架 • 揭秘了机器学习管道 •回顾： 6个机器学习云 • 您应使用哪个Spark机器学习API？ ]

创新的AI硬件加速器体系结构范围不断扩大。尽管您可能认为图形处理单元（GPU）是主要的AI硬件体系结构，但事实并非如此。在过去的几年中，初创公司和成熟的芯片供应商都推出了令人印象深刻的新一代新型硬件架构，这些架构针对机器学习，深度学习，自然语言处理和其他AI工作负载进行了优化。

除了新一代的GPU，在这些经过AI优化的新型芯片组架构中，主要的是神经网络处理单元（NNPU），现场可编程门阵列（FPGA），专用集成电路（ASIC）以及各种相关的方法由神经突触结构的统称。如Ars Technica文章中所述，当今的AI市场没有像英特尔的x86 CPU曾经在台式机计算领域占据主导地位的硬件单一文化。这是因为这些新的AI加速器芯片架构已适应于新兴的云到边缘生态系统中的高度特定角色，例如计算机视觉。

人工智能加速器芯片的发展

要了解AI加速器芯片的快速发展，最好将注意力集中在以下市场机遇和挑战上。

人工智能层

要了解AI加速器的发展方式，请关注边缘，在该边缘对新的硬件平台进行了优化，以实现移动，嵌入式和物联网（IoT）设备的更大自治性。除了内置智能手机的AI处理器的泛滥之外，在这方面最值得一提的是AI机器人技术的创新，该技术正在渗透从无人驾驶车辆到无人机，智能设备和工业物联网的所有领域。

在这方面最值得注意的发展之一是Nvidia 对其Jetson Xavier AI片上AI系统（SOC）系列的最新增强。 Nvidia已发布Isaac软件开发套件，以帮助构建将在其专用机器人硬件上运行的机器人算法。

Jetson Xavier芯片反映了智能机器人的复杂性，它由六个处理单元组成，包括512核Nvidia Volta Tensor Core GPU，八核Carmel Arm64 CPU，双Nvidia深度学习加速器以及图像，视觉和视频处理器。这些使它能够处理数十种算法，以帮助机器人自主感知环境，有效响应并与人类工程师一起安全操作。

AI任务

人工智能加速器开始渗透到分布式云到边缘，高性能计算，超融合服务器和云存储体系结构的每个层。所有这些领域都将源源不断地提供新鲜的硬件创新，以支持更快速，高效和准确的AI处理。

AI硬件创新正在进入市场，以加速这些独特的应用程序环境中由数据驱动的特定任务。市场上无数的AI芯片组架构反映了机器学习，深度学习，自然语言处理以及其他AI工作负载的各种范围，从存储密集型培训到计算密集型推理，涉及不同程度的设备自主性和人员介入环互动。

为了解决AI芯片组所支持的工作负载范围，供应商在其产品组合中甚至在特定的嵌入式AI部署中（例如，驱动智能机器人技术和移动应用的SOC）都融合了多种技术。

例如，英特尔的至强融核CPU体系结构已用于加速AI任务。但是英特尔认识到，如果没有专用的AI加速器芯片，它就无法与Nvidia Volta（在GPU中）以及制造NNPU和其他专用AI芯片的众多供应商正面竞争，就无法跟上步伐。因此，英特尔现在拥有一个产品团队，致力于新GPU的开发，并将在未来两年内发布。

同时，它继续使用AI优化的芯片组来对冲赌注，这些芯片组包括以下几种架构类别：神经网络处理器（Nervana）， FPGA （Altera），计算机视觉ASIC （Movidius）和自主车辆ASIC （MobilEye）。它还计划开发用于下一代AI挑战的自学习神经形态和量子计算芯片。

AI公差

每个AI加速硬件创新都必须具有生存能力，以实现在相关的运营和经济公差范围内定义的指标。

在操作指标方面，每个AI芯片组都必须在形状因数，能效，热量和电磁辐射以及坚固性方面符合相关限制。

在经济指标上，它在性能和拥有成本上必须具有竞争性，这些性能和拥有成本将被设计到其中。行业基准比较将成为确定AI加速器技术是否具有可在竞争激烈的市场中生存的性价比的关键因素。

在朝着工作负载优化的AI架构发展的行业中，用户将采用最快，最具扩展性，最省电且成本最低的硬件，软件和云平台来运行其AI任务-包括开发，培训，运营和推理—在每个层次中。

AI加速器ASIC的多样性

AI加速器的硬件架构与单一文化相反。它们是如此多样且发展如此Swift，以至于很难跟上这个市场不断创新的步伐。

除了Nvidia和Intel之类的核心AI芯片组制造商以外，针对平台特定的AI工作负载的ASIC也很多。您可以在最近的几则新闻中看到这种趋势：

微软正在为其HoloLens增强现实头盔准备AI芯片。
Google有一个特殊的NNPU，即Tensor Processing Unit ，可用于Google Cloud Platform上的AI应用程序。
据报道，亚马逊正在为其Alexa家庭助手开发AI芯片。
苹果公司正在开发一款将为Siri和FaceID 提供支持的AI处理器。
特斯拉正在为其自动驾驶电动汽车构建AI处理器。

AI加速器基准框架开始出现

AI加速器市场中的跨供应商合作伙伴关系日益复杂和重叠。例如，考虑一下中国的科技巨头百度如何与英特尔和英伟达分别合作。除了推出自己的用于自然语言处理，图像识别和自动驾驶的NNPU芯片外，百度还与英特尔合作，在其公共云（用于Xeon CPU的AI框架，配备AI的自动驾驶）中支持FPGA支持的AI工作负载加速。汽车平台，基于计算机视觉的零售相机，以及采用英特尔的nGraph 不可知硬件深度神经网络编译器。这一切都是在与英伟达（Nvidia）等价宣布之后的，包括计划将Volta GPU引入百度云，对百度针对Volta的PaddlePaddle AI开发框架进行的调整以及将Nvidia支持的AI推向中国消费者市场的计划。

越来越多的AI加速器硬件选项（包括云和专用SoC）中的各种组合进行了分类，这越来越困难。在没有灵活的基准测试框架的情况下，隔离AI加速器硬件对任何给定任务的整体性能的贡献可能很棘手。

幸运的是，人工智能行业正在开发开放，透明且与供应商无关的框架，以进行基准测试，以评估在运行各种工作负载时不同硬件/软件堆栈的比较性能。

MLPerf

例如， MLPerf开源基准测试小组正在开发一个标准套件，用于对机器学习软件框架，硬件加速器和云平台的性能进行基准测试。 MLPerf 在GitHub上可用，目前处于beta版本，它为当今AI部署中占主导地位的一些AI任务提供参考实现。它将基准范围限定于由特定算法（例如Resnet-50 v1 ）针对特定数据集（例如ImageNet ）执行的特定AI任务（例如图像分类）。核心基准测试专注于特定的硬件/软件部署，例如在由16个CPU芯片，一个Nvidia P100 Volta GPU和600 GB本地磁盘构建的平台上，在Ubuntu 16.04 ， Nvidia Docker和CPython 2中运行的图像分类培训作业。

MLPerf框架足够灵活，因此可以想象，基于GPU的图像分类训练可以针对运行在不同硬件加速器（例如最近发布的百度昆仑FPGA）上的相同任务进行基准测试，但要在实质上等效的软件/硬件堆栈中进行。

其他AI行业基准测试计划还可以对备用AI加速器芯片以及部署中使用相同模型针对相同培训或运营数据处理相同任务的其他硬件和软件组件进行比较性能评估。这些其他基准测试计划包括DawnBench ， ReQuest ，事务处理绩效委员会的AI工作组和CEA N2D2 。它们都足够灵活，可以应用于在任何部署层中运行的任何AI工作负载任务，并且可以根据任何经济承受能力进行衡量。

EEMBC机器学习基准套件

为了反映AI工作负载向边缘移动的趋势，一些AI基准测试计划仅专注于评估部署到此层的硬件/软件堆栈的性能。例如，行业联盟EEMBC最近开始了一项新的工作，为在功率受限的边缘设备中运行的优化芯片组中执行的机器学习定义基准套件。 EEMBC的机器学习基准套件小组将在英特尔的主持下，使用虚拟助手，智能手机，IoT设备，智能扬声器，IoT网关和其他嵌入式/边缘系统的真实世界机器学习工作负载，以识别处理器核心的性能潜力和能效用于加速机器学习推理工作。

EEMBC机器学习基准测试将测量推理性能，神经网络旋转时间以及低，中和高复杂度推理任务的功效。机器学习前端框架，后端运行时环境和硬件加速器目标将是不可知的。该小组正在研究概念验证，并计划在2019年6月之前发布其初始基准套件，以解决一系列基于边缘推理的神经网络架构和用例。

EEMBC Adasmark基准测试框架

EEMBC的Adasmarkbenchmarking框架针对狭窄的边缘层和任务范围，专注于配备AI的智能汽车。除了其机器学习基准测试工作之外，EEMBC还为嵌入式高级驾驶员辅助系统中的AI芯片开发了单独的性能测量框架。

该套件有助于评估在多设备，多芯片，多应用智能车辆平台中执行的AI推理任务的性能。它对与高度并行的智能车辆应用程序相关的现实世界推理工作负载进行了基准测试，例如计算机视觉，自动驾驶，汽车环绕视图，图像识别和移动增强现实。它测量跨复杂智能汽车边缘架构的推理性能，该架构通常包括多个专用CPU，GPU和其他硬件加速器芯片组，这些芯片组在同一机箱中执行不同的任务。