混合型人工智能白皮书：高通如何帮助人工智能扩展(二)

本文链接：https://blog.csdn.net/weixin_38498942/article/details/141225583

4.1 算法和模型开发

我们的研究团队开发和修改神经网络架构，以提高效率而不牺牲准确性。动作识别和超分辨率就是例子。
传统的用于动作识别的深度学习模型逐帧、逐层地处理视频序列。虽然这能带来准确的结果，但计算密集、延迟高且能效低。我们的FrameExit模型是公开可用的，它自动学习为简单视频处理较少的帧，而为复杂视频处理更多的帧，从而节省功耗并提高性能。除了我们的模型架构创新外，我们的全栈AI优化还包括最先进的量化技术和一个新颖的编译器栈。我们在移动设备上进行了演示，与常用的动作识别基准相比，我们的方法实现了计算量和延迟的平均降低高达5倍。

超分辨率将图像清晰化、锐化并放大到更高分辨率，用于高分辨率屏幕上的游戏和视频播放等应用。尽管基于人工智能的超分辨率相比传统方法实现了令人印象深刻的视觉质量，但在移动设备上实时启用它具有挑战性。我们优化了整个AI栈，包括使用我们的Q-SRNet模型的算法、使用4位整数（INT4）量化的软件以及使用INT4加速的骁龙8 Gen 2硬件。我们实现了全球首个使用INT4模型的实时超分辨率设备端演示，显著改善了延迟和功耗。事实上，与INT8相比，INT4在性能和能效方面提高了1.5到2倍。

4.2 软件和模型效率

高通AI栈旨在帮助开发者编写一次，并在我们的硬件上随处运行人工智能负载。高通AI栈从上到下支持流行的人工智能框架，如TensorFlow、PyTorch、ONNX和Keras，以及包括TensorFlow Lite、TensorFlow Lite Micro、ONNX runtime等运行时。此外，它还包括推理软件开发工具包（SDK），例如我们流行的Qualcomm®神经处理SDK，提供Android、Linux和Windows版本。我们的开发者库和服务支持最新的编程语言、虚拟平台和编译器。在较低层级，我们的系统软件包括基本的实时操作系统（RTOS）、系统接口和驱动程序。跨不同产品线，我们还提供丰富的操作系统支持，包括Android、Windows、Linux和QNX，以及部署和监控基础设施，如Prometheus、Kubernetes和Docker。
高通AI栈还包括Qualcomm® AI Studio，支持从设计到优化、部署和分析的完整模型工作流程。它将我们提供的所有工具汇集到一个图形用户界面中，并配备了可视化工具，以简化开发者体验，使他们能够看到他们的模型开发过程，其中包括AI模型效率工具包（AIMET）、AIMET模型库、模型分析器和神经架构搜索（NAS）。
在这里插入图片描述
我们专注于人工智能模型效率研究，以提高能效和性能。如果一个小而快速的人工智能模型提供低质量或不准确的结果，那它就没有用。所以，我们采用整体和系统的方法——涵盖量化、压缩、条件计算、神经架构搜索（NAS）和编译——来缩小人工智能模型并高效运行它们，而不会牺牲太多的准确性，即使这些模型已经被业界为移动设备进行了优化。
在这里插入图片描述

4.2.1 量化

高效整数推理的量化是一个关键关注领域。在过去的几年里，我们通过论文和演示分享了我们的领先量化AI研究，包括数据无量化和AdaRound等训练后量化（PTQ）技术，以及贝叶斯比特等联合量化和剪枝技术。量化不仅提高了性能，减少了内存存储需求，还通过允许模型高效运行在我们的专用AI硬件上并消耗更少的内存带宽来节省功耗。例如，将FP32量化为INT4可以在内存和计算方面提升高达64倍的性能每瓦节省。
对于生成式人工智能，基于变换器的LLMs（如GPT、Bloom和LLaMA）在量化到8位或4位权重时，往往会大大受益于效率的提升，因为它们受内存限制。包括我们在内的几项研究表明，4位权重量化不仅对LLMs是可行的，而且是最佳的，并且在PTQ设置中是可行的。这种效率提升超越了浮点数所能实现的。
我们的AIMET提供了由高通AI研究开发的量化工具，现在已被纳入高通AI Studio。通过量化感知训练和/或进一步的量化研究，许多生成式AI模型可以量化到INT4。对INT4的支持允许在不牺牲准确性或性能的前提下，实现更高的功耗节省——相比INT8，运行更高效的神经网络时性能提高高达90%，每瓦性能提高60%。低位整数精度对于高效能推理至关重要。

4.2.2 编译

编译器是AI栈的关键组成部分，用于以最高性能和最低功耗高效运行AI模型。AI编译器将输入的神经网络转换为在目标硬件上运行的代码，同时优化延迟、性能和功耗。编译包括计算图的分块、放置、排序和调度步骤。我们在传统编译器技术、多面体AI编译器以及编译器组合优化AI研究方面的专业知识，已经取得了最先进的成果。
例如，高通AI引擎直接框架基于高通®Hexagon™处理器的硬件架构和内存层次结构对操作进行排序，以提高性能并减少内存溢出。我们的优化有助于减少DRAM流量，显著降低运行时延迟和功耗。

4.3 硬件加速

我们的硬件在每瓦性能方面提供了行业领先的表现——大约是移动竞争对手的2倍。
在这里插入图片描述

高通AI引擎由多个硬件和软件组件组成，加速了在骁龙和高通平台上的设备端人工智能。就硬件而言，高通AI引擎采用了异构计算架构，由Hexagon处理器、高通® Adreno™ GPU和高通® Kryo™ CPU组成——所有这些都经过设计，能够在设备上快速高效地运行AI应用。通过这种异构计算方法，开发者和原始设备制造商（OEM）可以优化智能手机和其他边缘设备上的人工智能用户体验。
在多年的研究推动下，Hexagon处理器是高通AI引擎最关键的部分。它已经演变以应对不断变化的AI需求。2007年，第一个Hexagon处理器在骁龙平台上推出。2015年，宣布了骁龙820处理器，并包括我们的第一个专用移动高通AI引擎，以支持成像、音频和传感器操作。2018年，我们在骁龙855中为Hexagon处理器添加了一个张量加速器。次年，我们在骁龙865上扩展了设备端AI的用例，包括AI成像、AI视频、AI语音和始终在线的感知中心。
2022年，骁龙8 Gen 2提供了突破性的AI，集成在整个系统中，由我们迄今为止最快、最先进的高通AI引擎提供支持。用户可以体验到更快的自然语言处理，进行多语言翻译，或享受AI电影级视频捕捉的乐趣。最新的Hexagon处理器引入了一个专用的电力供应系统，根据工作负载调整功率。专用硬件改进了组卷积、激活函数加速以及Hexagon张量加速器的性能。对微块推理和INT4硬件加速的支持提供了更高的性能，同时减少了功耗和内存流量。变换器加速显著加快了多头注意力机制的推理速度，这在生成式AI中广泛使用，使得在某些MobileBERT用例中，AI性能提高达4.35倍。

5 无与伦比的全球足迹和边缘规模

高通技术公司在边缘设备上拥有巨大的足迹，数十亿用户设备由骁龙和高通平台提供动力——每年有数亿台设备由我们的平台提供动力进入市场。
我们的人工智能能力覆盖了广泛的产品，包括移动设备、车辆、XR、个人电脑和物联网。我们开发了人工智能加速解决方案，如高通AI引擎，以及所有其他关键的IP创新和高级技术，通常作为我们可扩展技术架构的一部分以每年为周期推出，并迅速将这些能力在各个领域和主流及入门级类别中普及。
因此，高通技术公司在全球范围内扩展混合型人工智能方面具有独特的优势。
下图：由骁龙平台提供动力的设备可以在各个领域和类别中将混合型人工智能扩展到数十亿单位。
在这里插入图片描述

5.1 手机

骁龙是引领高端安卓体验的领先移动平台——包括超过20亿个具有人工智能能力的处理器出货。骁龙平台还在移动平台的人工智能基准测试中处于领先地位——例如，在行业领先的AI基准测试中占据前20名的位置。
2023年第二季度，领先的市场研究公司TechInsights预测高通技术公司将在具有人工智能能力的智能手机处理器出货量中保持领先地位，市场份额超过40%——远超其他公司如苹果（25%）和联发科（24%）。

5.2 汽车

高通技术公司是座舱和车载信息娱乐解决方案的领导者，所有主要的全球汽车制造商都选择了骁龙®座舱平台来为他们的数字座舱系统提供动力。这些汽车制造商包括本田、梅赛德斯、雷诺、沃尔沃、捷豹路虎、Stellantis、宝马、通用汽车/凯迪拉克、长城汽车、马恒达、Togg、丰田、小鹏、广汽、捷途、蔚来和威马汽车。许多汽车制造商已经启动了生产计划或正在设计使用我们解决方案的平台。
随着最新一代骁龙座舱平台的推出，我们的汽车解决方案旨在提供一流的车内用户体验，以及安全、舒适和可靠性，在互联汽车时代提高数字座舱解决方案的标准。
我们的骁龙Ride™平台提供了一个扩展的产品路线图，特点是首个宣布的基于5nm工艺技术的可扩展和自动驾驶SoC平台，并具有用于视觉感知、停车和驾驶员监控的行业验证软件生态系统。

5.3 个人电脑和平板电脑

骁龙计算平台集成了高通AI引擎，用于强大的设备端加速，提供更好的质量、性能和效率，适用于最新的应用程序。除了生成式人工智能的应用，如文本、图像和视频创作外，我们的AI引擎还具有传统的人工智能应用，从更快的威胁检测以提高安全性，到眼神接触和噪音抑制以增强视频会议。利用Hexagon处理器可以提高性能和效率以延长电池寿命，同时保持其他系统资源如CPU和GPU空闲，以帮助用户提高生产力。

5.4 物联网

高通技术公司是物联网的主要技术提供商，拥有超过16,000家垂直行业的客户。我们物联网芯片组和平台中嵌入的人工智能处理能力允许在设备端高效且可操作地分析数据，如视频——推动机器人、智能摄像头、零售和城市基础设施等多个领域的创新和转型。

5.5 XR

XR设备，如VR头戴设备和AR眼镜，融合了我们的设备端人工智能和骁龙Spaces™技术，以提供更沉浸的体验并更好地适应周围的世界。
迄今为止，已有超过65款XR设备使用骁龙平台发布——包括来自Meta、Pico和联想等品牌的许多最受欢迎的设备。

6 结论

混合型人工智能是不可避免的。云端和设备将共同努力，通过强大、高效且高度优化的人工智能能力提供下一代用户体验。我们在设备端人工智能方面的领导地位使我们在向混合架构迈进时具有独特优势——许多工作负载将从云端转移到边缘设备，从而需要高性能和出色的能效。早期在研究和产品开发方面的投资使得今天的骁龙平台能够支持超过十亿参数的生成式人工智能模型，并且支持十亿以上参数的能力已经指日可待。
我们在边缘设备上拥有无与伦比的足迹，全球范围内安装了数十亿由骁龙和高通平台提供动力的设备，使得我们有机会在生成式人工智能领域进行扩展，并积极影响无数人的生活。高通技术公司准备支持开发者、原始设备制造商（OEM）和其他生态系统创新者快速且经济高效地构建新的生成式人工智能应用和解决方案。技术领导力、全球规模和生态系统支持的结合，使高通技术公司在推动混合型人工智能的发展和采用方面独树一帜。