AI 异构融合算力概念入门(第一篇) 2024

最新推荐文章于 2025-05-05 14:00:19 发布

小马不会过河

最新推荐文章于 2025-05-05 14:00:19 发布

阅读量1.5k

点赞数 29

文章标签：人工智能深度学习机器学习区块链大数据

本文链接：https://blog.csdn.net/m0_59163425/article/details/142601831

版权

近年来，自动驾驶、元宇宙、人工智能等应用不断创新发展，数据规模、算法复杂度以及算力需求爆发式增长。

各类加速处理器已成为算力基础设施的重要组件，基于 CPU+xPU 的异构计算系统逐渐成为各算力场景的主流架构。

然而，随着异构计算系统的种类和数量越来越多，xPU 性能与灵活性难以兼顾、各 xPU 间计算孤岛问题难以协同、调试和维护成本增高等问题愈发凸显，亟需从异构融合计算方向加强理论研究和实践探索。

以人工智能发展为例，Nature Electronics 期刊在 2022 年 4 月的一篇文章显示:从 2018 年开始，随着 AI 大模型应用的涌现，算力需求平均每 2 个月翻一倍;摩根士丹利估计 “2022 年谷歌的 3.3 万亿次搜索，平均成本约为每个 0.2 美分”，John Hennessy 表示“基于大模型搜索的成本是标准关键词搜索的 10 倍”。

需求的变化和成本的约束，再加上 NoC(Network-on-Chip)和 SiP(System in Package)等新芯片技术的赋能，必将推动算力基础架构的变革。

计算架构已逐渐从目前各自为政、孤岛式的异构计算，走向异构融合计算。同时，以系统设计为中心，按照应用需求来设计、定义和规划计算架构，推动多层级技术的融合已成为当前的最佳可行方案。

狭义的异构融合计算，指的是多种不同类型、不同架构处理器组成的计算架构。广义的异构融合计算，是指通过将处理器、芯片、硬件设备、操作系统、编程框架、编程语言、网络通信协议、数据中心等不同层次、不同类型的计算技术进行整合优化，以实现多种异构计算资源的高效利用。

当今，数字化技术作为科技与产业新一轮变革的核心驱动力，正在加速各行各业转型升级，一个以计算能力为基础的万物感知、万物互联、万物智能的数字经济时代正加速到来。在这一进程中，算力作为数字经济的核心生产力，由单一算力演变为多样性算力，如何实现多样性算力的高质量协同，已成为新型算力基础设施领域亟需突破的关键问题。

数字化时代，创新应用爆发式增长，传统单一架构计算平台已难以满足多样性算力需求，异构融合计算技术的提出显得尤为重要。

在硬件层面，异构融合计算技术是指将不同类型的处理器(如 CPU、GPU、FPGA 等) 融合在一起，实现多种处理器的协同工作，以实现更高效、更灵活的计算能力。

尽管异构融合计算这一技术还存在一些挑战和问题，但随着技术的进步和应用的深入，我们可以预见异构融合计算技术将在更多领域得到应用和发展。我们有理由相信这一技术将带来更多的社会和经济效益。因此，希望未来的研究能够继续关注这一领域的发展动态，以推动异构融合计算技术的进一步创新和应用。

1 异构计算领域相关概念

1.1 异构计算

异构计算(Heterogeneous Computing)是指不同类型指令集和体系结构的处理器组成的系统计算方式。

CPU 和其他处理引擎最大不同在于:CPU 是 Self-Control(图灵完备的)，可以独立运行，其他加速处理器需要在 CPU 的协助下运行。

因此，异构计算通常是指 CPU+xPU 的异构计算架构(xPU 泛指其他各类非 CPU 的加速处理器)。

依据指令的复杂度，处理器引擎分为 CPU、Coprocessor(协处理器)、GPU、FPGA、 DSA 和 ASIC 等，如图 1-1，从左向右，单位计算依次复杂，性能逐渐提升，但灵活性不断降低。

图 1-1 不同典型处理器间性能与灵活性对比图

协处理器集成在 CPU 内部，用于协助 CPU 处理特定的计算任务;加速处理器(如GPU、FPGA 等)专注于特定类型的计算任务。

目前主流的异构计算形态主要有三种:

基于 GPU 的异构并行。GPU 异构加速本质是众多并行的高效能通用处理器，通过调用 CUDA 等编程模型和工具实现多线程处理，适用于大规模的并行计算。
基于 FPGA 的异构并行。FPGA 具备硬件弹性的特征，可以根据需要进行配置和编程，以实现不同的计算任务和算法加速，具有高并行度和高可靠性，适合进行定制计算。
基于 DSA 的异构并行。CPU 和 DSA 共同构成异构计算系统，DSA 可以在定制ASIC 的基础上进行回调，主要用于加速计算密集型任务。

异构的目标是将任务分解为计算上同构的子任务，然后将每个子任务分配给最适合执行的计算资源(或并行模式)。

异构系统通常是由使用不同类型指令集和体系架构的计算单元组成的，常见的计算单元类别包括 CPU、GPU、ASIC、FPGA 等。与同构系统相比，异构计算系统代码执行时间更短。

1.2 异构融合计算

Intel 于 2019 年提出“超异构计算”的概念，强调了超异构计算涉及的三个方面:系统架构、工艺和封装，以及统一的异构计算软件。

但在最核心的系统架构层次，Intel 仅仅只强调了“多”，并没有进一步对超异构计算进行阐述，以及设计实现的进一步细节说明。

“异构融合计算”是一个全新的概念，目前行业还没有形成统一的定义。从概念上讲， “异构融合计算”属于异构计算的范畴，可以定义为异构计算的一种高阶形态。

在这里插入图片描述

图 1-2 Intel 超异构计算三大要素

本文认为，狭义的“异构融合计算”，是一种新的计算架构和方法，通过融合CPU 和多种不同类型、不同架构的加速处理器，以实现更大规模、更高性能、更加高效的计算。

而广义的“异构融合计算”，则通过不同层次、不同类型的技术整合，来实现异构融合计算资源的高效利用。

广义的异构融合计算，主要包含以下几方面内容:

超异构: 系统中异构处理器的数量为三个或三个以上。“一个称为同构，两个称为异构，三个或三个以上称为超异构”。超异构是异构融合计算的前提。

硬件融合: 强调不同处理器之间的深度协同(指单个工作任务由两个或两个以上处理器协作处理)和深度融合(指某个具体工作任务可以跨 CPU、GPU 和 DSA 等不同类型处理器运行，也可以跨同类型中的不同架构处理器运行)。各处理器之间可以通过高速总线或高性能网络进行通信和数据传输，通过更高层次的系统划分和任务调度实现协同计算。
软件融合: 面向异构(硬件)计算环境，将操作系统、应用软件、编程模型、编程语言、通信协议、数据等技术资源进行融合和优化，提供统一的软件运行环境和编译开发工具，旨在降低异构融合计算系统的复杂度，实现计算任务的跨平台运行。
系统融合: 通过合理地任务分配和资源调度，异构融合计算系统可以实现更高的计算性能和更好的计算效率。

传统异构计算，特指 CPU+xPU 的计算架构。

异构融合计算与传统异构计算的差异点在于 : 传统异构计算仅有一种加速处理器类型，并且仅关注 CPU 和加速处理器的协同;而异构融合计算则具有两种或两种以上的加速处理器类型，并且需要重点关注所有处理器之间的协同和融合，以及硬件与软件之间的融合、系统内部及系统之间的融合问题。

1.3 其他相关概念 1.3.1 ASIC 与 DSA

ASIC(Application-Specific Integrated Circuit，专用集成电路)是指应特定需求而设计、制造的集成电路，与通用集成电路(General Purpose IC)相比体积更小、功耗更低、成本更低。一般来说，ASIC 处理引擎的指令复杂度最高，其理论性能最佳，但实际上受限于多种因素影响，ASIC 的问题也较为突出:

ASIC 是场景和硬件设计强耦合，硬件开发难度高;功能利用率低，导致资源效率也相对较低，并且难以实现超大规模的 ASIC 设计。
ASIC 难以满足复杂计算场景的差异化需求。包含两个方面:一是横向的不同用户的差异化需求，二是纵向的单个用户的长期快速迭代需求。即使同一场景下，不同厂家的 ASIC 引擎设计依然五花八门，毫无生态可言。

DSA(Domain-Specific Accelerator，特定领域加速器 ; 也称为 Domain-Specific Architecture，特定领域架构)，可根据特定应用场景定制处理引擎甚至芯片，支持部分软件可编程。DSA 的设计和实现需要考虑特定领域的特征和需求，包括算法、数据结构和最佳实践等。

DSA 一定程度上解决了 ASIC 的一些问题:

灵活性问题: ASIC 由于其功能确定，只能通过一些简单的配置控制硬件运行，其功能比较单一。而 DSA 则支持一定可编程能力，实现了一定程度上的软硬件解耦，使得其可以在特定领域，可实现对用户场景横向和纵向差异性需求的覆盖。
应用领域扩大: DSA 支持可编程能力，使得其功能覆盖的领域范围相比 ASIC 要多。 DSA 架构的处理引擎在满足系统灵活性要求的情况下，可实现最极致的性能，以及最佳的性价比。

1.3.2 SoC与SiP

SoC(System on Chip，片上系统)，是一种将多种电子组件集成在一个芯片上的复杂系统。这些组件可以包括 CPU、内存、I/O 接口、各种传感器和执行器等。

在 SoC 中，通过先进的电路设计和封装技术实现将不同的组件集成到一个芯片上。这种集成方式可以大大减少系统的体积和功耗，提高系统的可靠性和性能。

同时，SoC 还可以通过硬件和软件的协同设计，实现系统的优化和定制化。

SiP(System in Package，系统级封装)是一种先进的封装技术，它将多个具有不同功能的有源电子元件与可选无源器件、MEMS(微机电系统)器件、光学器件等其他器件优先组装到一起，实现一定功能的单个标准封装件，形成一个系统或者子系统。

这种封装技术体现了将各种功能芯片，包括处理器、存储器等芯片集成在一个封装内的概念。

SiP 类别可以根据不同的组装方式和功能进行分类，常见的 SiP 类别包括:

2D SiP:这是最常见的 SiP 类型，通过在平面上排列多个芯片实现不同功能。这些芯片可以是不同类型的有源器件。
3D SiP:在 3D SiP 中，芯片被堆叠在一起，以实现更高的集成度和更小的封装尺寸。
MIP(Multiple-chip-in-Package):MIP 是一种将多个独立的芯片(可以是不同类型的有源器件或无源器件)组装在一个封装内的技术。
PiP(Package in Package):这是一种将一个封装件(如 SoC)与其他器件(如 MEMS、光学元件等)组合在一起的技术，形成一个更复杂的系统级封装。

SiP 与 SoC 在实现系统级集成方面有相似的目标，但它们在集成程度、功能模块、封装尺寸和系统性能方面存在一定的区别。

SiP 更注重将不同功能芯片和其他器件组装在一起，实现一定功能的系统或子系统;而 SoC 则通过将整个系统或部分系统集成到单个芯片上，实现更高的集成度和更好的性能表现。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述