AI 异构融合算力概念入门(第一篇) 2024

近年来,自动驾驶、元宇宙、人工智能等应用不断创新发展,数据规模、算法复杂度 以及算力需求爆发式增长。

各类加速处理器已成为算力基础设施的重要组件,基于 CPU+xPU 的异构计算系统逐渐成为各算力场景的主流架构。

然而,随着异构计算系统的种 类和数量越来越多,xPU 性能与灵活性难以兼顾、各 xPU 间计算孤岛问题难以协同、调试 和维护成本增高等问题愈发凸显,亟需从异构融合计算方向加强理论研究和实践探索。

以人工智能发展为例,Nature Electronics 期刊在 2022 年 4 月的一篇文章显示:从 2018 年开始,随着 AI 大模型应用的涌现,算力需求平均每 2 个月翻一倍;摩根士丹利估计 “2022 年谷歌的 3.3 万亿次搜索,平均成本约为每个 0.2 美分”,John Hennessy 表示“基 于大模型搜索的成本是标准关键词搜索的 10 倍”。

需求的变化和成本的约束,再加上 NoC(Network-on-Chip)和 SiP(System in Package)等新芯片技术的赋能,必将推动算力 基础架构的变革。

计算架构已逐渐从目前各自为政、孤岛式的异构计算,走向异构融合计 算。同时,以系统设计为中心,按照应用需求来设计、定义和规划计算架构,推动多层级技术的融合已成为当前的最佳可行方案。

狭义的异构融合计算,指的是多种不同类型、不同架构处理器组成的计算架构。广义 的异构融合计算,是指通过将处理器、芯片、硬件设备、操作系统、编程框架、编程语言、 网络通信协议、数据中心等不同层次、不同类型的计算技术进行整合优化,以实现多种异 构计算资源的高效利用。

当今,数字化技术作为科技与产业新一轮变革的核心驱动力,正在加速各行各业转型升级,一个以计算能力为基础的万物感知、万物互联、万物智能的数字经济时代正加速到 来。在这一进程中,算力作为数字经济的核心生产力,由单一算力演变为多样性算力,如 何实现多样性算力的高质量协同,已成为新型算力基础设施领域亟需突破的关键问题。

数字化时代,创新应用爆发式增长,传统单一架构计算平台已难以满足多样性算力需求,异构融合计算技术的提出显得尤为重要。

在硬件层面,异构融合计算技术是指将不同类型的处理器(如 CPU、GPU、FPGA 等) 融合在一起,实现多种处理器的协同工作,以实现更高效、更灵活的计算能力。

尽管异构融合计算这一技术还存在一些挑 战和问题,但随着技术的进步和应用的深入,我们可以预见异构融合计算技术将在更多领 域得到应用和发展。我们有理由相信这一技术将带来更多的社会和经济效益。因此,希望 未来的研究能够继续关注这一领域的发展动态,以推动异构融合计算技术的进一步创新和 应用。

1 异构计算领域相关概念

1.1 异构计算

异构计算(Heterogeneous Computing)是指不同类型指令集和体系结构的处理器组成 的系统计算方式。

CPU 和其他处理引擎最大不同在于:CPU 是 Self-Control(图灵完备的), 可以独立运行,其他加速处理器需要在 CPU 的协助下运行。

因此,异构计算通常是指 CPU+xPU 的异构计算架构(xPU 泛指其他各类非 CPU 的加速处理器)。

依据指令的复杂度,处理器引擎分为 CPU、Coprocessor(协处理器)、GPU、FPGA、 DSA 和 ASIC 等,如图 1-1,从左向右,单位计算依次复杂,性能逐渐提升,但灵活性不断 降低。

图 1-1 不同典型处理器间性能与灵活性对比图

协处理器集成在 CPU 内部,用于协助 CPU 处理特定的计算任务;加速处理器(如GPU、FPGA 等)专注于特定类型的计算任务。

目前主流的异构计算形态主要有三种:

  • 基于 GPU 的异构并行。GPU 异构加速本质是众多并行的高效能通用处理器,通过调用 CUDA 等编程模型和工具实现多线程处理,适用于大规模的并行计算。

  • 基于 FPGA 的异构并行。FPGA 具备硬件弹性的特征,可以根据需要进行配置和编程,以实现不同的计算任务和算法加速,具有高并行度和高可靠性,适合进行定制计算。

  • 基于 DSA 的异构并行。CPU 和 DSA 共同构成异构计算系统,DSA 可以在定制ASIC 的基础上进行回调,主要用于加速计算密集型任务。

异构的目标是将任务分解为计算上同构的子任务,然后将每个子任务分配给最适合执行的计算资源(或并行模式)。

异构系统通常是由使用不同类型指令集和体系架构的计算单 元组成的,常见的计算单元类别包括 CPU、GPU、ASIC、FPGA 等。与同构系统相比,异 构计算系统代码执行时间更短。

1.2 异构融合计算

Intel 于 2019 年提出“超异构计算”的概念,强调了超异构计算涉及的三个方面:系统 架构、工艺和封装,以及统一的异构计算软件。

但在最核心的系统架构层次,Intel 仅仅只 强调了“多”,并没有进一步对超异构计算进行阐述,以及设计实现的进一步细节说明。

“异构融合计算”是一个全新的概念,目前行业还没有形成统一的定义。从概念上讲, “异构融合计算”属于异构计算的范畴,可以定义为异构计算的一种高阶形态。

在这里插入图片描述

图 1-2 Intel 超异构计算三大要素

本文认为,狭义的“异构融合计算”,是一种新的计算架构和方法,通过融合CPU 和多种不同类型、不同架构的加速处理器,以实现更大规模、更高性能、更加高效的 计算。

而 广义的“异构融合计算”,则通过不同层次、不同类型的技术整合,来实现异构 融合计算资源的高效利用。

广义的异构融合计算,主要包含以下几方面内容:

超异构: 系统中异构处理器的数量为三个或三个以上。“一个称为同构,两个称为 异构,三个或三个以上称为超异构”。超异构是异构融合计算的前提。

  • 硬件融合: 强调不同处理器之间的深度协同(指单个工作任务由两个或两个以上处 理器协作处理)和深度融合(指某个具体工作任务可以跨 CPU、GPU 和 DSA 等不同类型 处理器运行,也可以跨同类型中的不同架构处理器运行)。各处理器之间可以通过高速总 线或高性能网络进行通信和数据传输,通过更高层次的系统划分和任务调度实现协同计算。

  • 软件融合: 面向异构(硬件)计算环境,将操作系统、应用软件、编程模型、编程 语言、通信协议、数据等技术资源进行融合和优化,提供统一的软件运行环境和编译开发 工具,旨在降低异构融合计算系统的复杂度,实现计算任务的跨平台运行。

  • 系统融合: 通过合理地任务分配和资源调度,异构融合计算系统可以实现更高的计 算性能和更好的计算效率。

传统异构计算,特指 CPU+xPU 的计算架构。

异构融合计算与传统异构计算的差异点在于 : 传统异构计算仅有一种加速处理器类型,并且仅关注 CPU 和加速处理器的协同;而异构融合计算则具有两种或两种以上的加速处理器类型,并且需要重点关注所有处理器之 间的协同和融合,以及硬件与软件之间的融合、系统内部及系统之间的融合问题。

1.3 其他相关概念 1.3.1 ASIC 与 DSA

ASIC(Application-Specific Integrated Circuit,专用集成电路)是指应特定需求而设计、 制造的集成电路,与通用集成电路(General Purpose IC)相比体积更小、功耗更低、成本 更低。一般来说,ASIC 处理引擎的指令复杂度最高,其理论性能最佳,但实际上受限于多种因素影响,ASIC 的问题也较为突出:

  • ASIC 是场景和硬件设计强耦合,硬件开发难度高;功能利用率低,导致资源效率也相对较低,并且难以实现超大规模的 ASIC 设计。

  • ASIC 难以满足复杂计算场景的差异化需求。包含两个方面:一是横向的不同用户的差异化需求,二是纵向的单个用户的长期快速迭代需求。即使同一场景下,不同厂家的 ASIC 引擎设计依然五花八门,毫无生态可言。

DSA(Domain-Specific Accelerator, 特 定 领 域 加 速 器 ; 也 称 为 Domain-Specific Architecture,特定领域架构),可根据特定应用场景定制处理引擎甚至芯片,支持部分软 件可编程。DSA 的设计和实现需要考虑特定领域的特征和需求,包括算法、数据结构和最 佳实践等。

DSA 一定程度上解决了 ASIC 的一些问题:

  • 灵活性问题: ASIC 由于其功能确定,只能通过一些简单的配置控制硬件运行,其功 能比较单一。而 DSA 则支持一定可编程能力,实现了一定程度上的软硬件解耦,使得其可 以在特定领域,可实现对用户场景横向和纵向差异性需求的覆盖。

  • 应用领域扩大: DSA 支持可编程能力,使得其功能覆盖的领域范围相比 ASIC 要多。 DSA 架构的处理引擎在满足系统灵活性要求的情况下,可实现最极致的性能,以及最佳的 性价比。

1.3.2 SoC与SiP

SoC(System on Chip,片上系统),是一种将多种电子组件集成在一个芯片上的复杂系 统。这些组件可以包括 CPU、内存、I/O 接口、各种传感器和执行器等。

在 SoC 中,通过 先进的电路设计和封装技术实现将不同的组件集成到一个芯片上。这种集成方式可以大大 减少系统的体积和功耗,提高系统的可靠性和性能。

同时,SoC 还可以通过硬件和软件的 协同设计,实现系统的优化和定制化。

SiP(System in Package,系统级封装)是一种先进的封装技术,它将多个具有不同功 能的有源电子元件与可选无源器件、MEMS(微机电系统)器件、光学器件等其他器件优 先组装到一起,实现一定功能的单个标准封装件,形成一个系统或者子系统。

这种封装技 术体现了将各种功能芯片,包括处理器、存储器等芯片集成在一个封装内的概念。

SiP 类 别可以根据不同的组装方式和功能进行分类,常见的 SiP 类别包括:

  • 2D SiP:这是最常见的 SiP 类型,通过在平面上排列多个芯片实现不同功能。这些 芯片可以是不同类型的有源器件。

  • 3D SiP:在 3D SiP 中,芯片被堆叠在一起,以实现更高的集成度和更小的封装尺寸。

  • MIP(Multiple-chip-in-Package):MIP 是一种将多个独立的芯片(可以是不同类型 的有源器件或无源器件)组装在一个封装内的技术。

  • PiP(Package in Package):这是一种将一个封装件(如 SoC)与其他器件(如 MEMS、光学元件等)组合在一起的技术,形成一个更复杂的系统级封装。

SiP 与 SoC 在实现系统级集成方面有相似的目标,但它们在集成程度、功能模块、封 装尺寸和系统性能方面存在一定的区别。

SiP 更注重将不同功能芯片和其他器件组装在一 起,实现一定功能的系统或子系统;而 SoC 则通过将整个系统或部分系统集成到单个芯片 上,实现更高的集成度和更好的性能表现。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值