嵌入式C语言自我修养分享课件-CSDN博客

本文链接：https://blog.csdn.net/baidu_41191295/article/details/123657803

本文探讨了异构计算的概念，如何通过集成CPU、GPU、NPU等不同架构单元提升算力。介绍了SoC芯片、核心处理器如Intel的酷睿和地平线的BPU微架构。还详细解读了GPU、DSP、FPGA等处理器的特性和应用，以及总线、地址、指令集和微架构的重要性。涵盖了APU、DPU、EPU等其他处理器，以及编址方式和微架构的不同形态，如ARMV8和X86微架构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.异构计算

1.背景：
随着物联网、大数据、人工智能时代的到来，海量的数据分析和大量复杂的运算对CPU 的算力要求越来越高，CPU 的大部分资源用于缓存和逻辑控制，适合运行各种复杂的串行程序，但是单核或者多核CPU处理性能的提升空间已经达到极限了(也就是说，单靠CPU很难满足现代科技发展的需求)。

2.异构计算简介：
异构计算就是在SoC 芯片内部集成不同架构的Core，比如DSP、GPU、NPU、TPU、BPU等不同架构的处理单元，各个核心协同运算，等于CPU找来了一系列的伙伴来共同协助自己的工作。

CPU适合处理分支、跳转等复杂逻辑的程序。
GPU擅长处理图片、视频数据。
NPU 和FPGA以及BPU负责人工智能领域。

soc芯片介绍:
一般说来， SoC称为系统级芯片，也有称片上系统，意指它是一个产品，是一个有专用目标的集成电路，其中包含完整系统并有嵌入软件的全部内容。
core介绍:
Intel旗下的酷睿处理器
Core（酷睿）微体系架构，其针对桌面、笔记本和服务器推出的产品代号分别是，Conroe、Merom和Woodcrest，都拥有64位处理能力，并且是双核产品

3.部分处理器介绍:
GPU (Graphic Process Unit，图形处理单元）
在这里插入图片描述
GPU通俗的讲就是我们所说的显卡，英伟达是其发明者，它主要用来处理图像数据。显卡将数字图像信号转换为模拟信号，并输出到屏幕上，早期的显卡都是直接集成到主板上，只充当适配器的角色。处理一些简单的图像，CPU能够轻松应对，不需要显卡的参与，随着大型3D游戏、制图和视频渲染软件的流行，数据运算量成倍增加，CPU 已经越来越力不从心，独立显卡开始承担图像处理和视频渲染的工作。GPU 天然多线程，特别适合大数据并行处理，在现在的计算机中被广泛使用，目前最火的就是NVIDIA(英伟达)。

DSP (Digital Signal Processing，数字信号处理器）
在这里插入图片描述
世界上第一个单片DSP芯片应当是1978年AMI公司发布的S2811，1979年美国Intel公司发布的商用可编程器件2920是DSP芯片的一个主要里程碑。

DSP主要用在音频信号处理和通信领域，相
比CPU, DSP 有三个优势:

1.DSP 采用哈弗架构，指令和数据独立存储，并行存取，执行效率更高。
2.对指令进行优化，提高了对信号的处理效率， DSP 有专门的硬件乘法器，可以在一个时钟周期内完成乘法运算。
3.没有冗余的逻辑电路，功耗可以做得更小。

劣势：
DSP 的缺陷是只适合做大量重复运算，无法像CPU 那样提供一个通用的平台，DSP 处理器虽然有自己的指令集和C 语言编译器，但对操作系统的支持一般。目前DSP 市场被严重蚕食，在高速信号采集处理领域被FPGA 抢去一部分市场，目前大多数以协处理器的形式与ARM 协同工作。

FPGA (Field Programmable Gate Array，现场可编程门阵列）

在这里插入图片描述
Xilinx (赛灵思)于 1984 年发明了世界首款 FPGA，主要用于数据处理，在专用集成电路领域中是以一种半定制电路的形式出现。

FPGA 芯片内部集成了大量的逻辑门电路和存储器，用户可以通过VHDL, Verilog 甚至高级语言编写代码来描述它们之间的连线，将这些连线配置文件写入芯片内部，就可以构成具有特定功能的电路。

FPGA直接将硬件描述语言翻译为晶体管门电路的组合，实现特定的算法和给能，可编程逻辑器件通过配套的集成开发工具，可以随时修改代码，下载到芯片内部，重新连线生成新的功能。

工作原理:
CPU 负责采集模拟信号，通过A/D 转换，将模拟信号转换成数字信号；然后将数字信号送到FPGA 进行处理；FPGA 依靠自身硬件电路的性能优势，对数字信号进行快速处理；最后将处理结果发送回CPU 处理器，以便CPU 做进一步的后续处理。
在这里插入图片描述

简而言之:FPGA是一个很灵活，并且能够跟其它芯片更好适配的一个处理器，在数字芯片验证、 ASIC 设计的前期验证、人工智能领域广受欢迎。

BPU(Brain Processor Unit，大脑处理器单元)

在这里插入图片描述

地平线科技提出的嵌入式人工智能处理器架构，第一代是高斯架构，第二代是伯努利架构，第三代是贝叶斯架构。

BPU是一款典型的异构多指令多数据的系统，架构中心处理器是完整的系统，存储器架构设计进行了特别优化，能使数据自由传递，进行多种计算，让不同部件同时运转起来，提高AI运算的效率。

BPU要做的不仅仅包括图像和视频感知，还包括语音、语义处理，以及决策、规划等比较复杂比较高阶的人工智能程序。

BPU架构能够在像素级别进行感知，能够更精确地分辨出路面、人体、汽车、建筑、树木等物体，进行图像分割。此外，更精准、更多路的感知结果将最终为环境的建模服务，可以从各个角度进行观测。

目前征程5芯片主要解决的三个痛点是算力浪费、生态缺失、数据风险。

征程5芯片采用8核心ARM Cortex A55核心、两个贝叶斯架构BPU实现AI运算，还有安全岛设计，支持丰富的接口。在视频输入方面，单颗征程5芯片就能够实现16路视频输入，并且支持毫米波雷达、激光雷达、超声波雷达等多种传感器。

总结：
对于一颗自动驾驶芯片来说，最重要的就是AI计算，地平线征程5采用双核心贝叶斯架构BPU，能够实现大规模异构近存计算，以实现高效率计算；同时拥有高灵活大并发数据桥，片上带宽非常大；此外，还有脉动张量计算核心，得以实现高算力。

名称	简介
APU	加速处理器，AMD 推出的加速图像处理芯片
DPU	深鉴科技设计的深度学习处理器
EPU	情绪处理单元，通过情绪合成引擎让机器人具有情绪
FPU	浮点计算单元，通用处理器中的浮点运算模块
HPU	全息图像处理器，微软出品的全息计算芯片与设备
IPU	Graphcore 公司设计的 AI 处理器
KPU	杭州嘉楠耘智推出的人工智能边缘计算芯片
MPU	微处理器
NPU	神经网络处理器
OPU	光流处理器
TPU	张量处理器，Google 公司推出的人工智能专用处理器
VPU	视频处理单元，主要用于视频硬解码
WPU	可穿戴处理片上系统芯片
XPU	百度与Xihnx 公司在 2017 年Hotchips 大会上发布的FPGA 智能云加速
ZPU	由挪威Zylin 公司推出的一款 32 位开源处理器

二.总线和地址

CPU 与内存、各种外部设备等IP 之间都是通过总线相连，CPU 如果想访问内存，或控制外部设备的运行是通过地址访问。

1.地址简介
地址的本质就是由CPU 管脚发出的一组地址控制信号,这些信号是由CPU 管脚直接发出的，因此也被称为物理地址

在带有MMU的CPU 平台下，程序运行一般使用的是虚拟地址， MMU 会把虚拟地址转换为物理地址，然后通过CPU 管脚发送出去，地址信号通过译码，选中指定的内存存储单元，再进行读写操作。

MMU:
MMU是内存管理单元，它是一种负责处理CPU的内存访问请求的计算机硬件。它的功能包括虚拟地址到物理地址的转换（即虚拟内存管理）、内存保护、CPU高速缓存的控制，在较为简单的计算机体系结构中，负责总线的仲裁以及存储体切换。

译码器
一组输入信号，通过译码转换，会选中一个输出信号，输出信号可以是高电平、低电平，甚至是一个脉冲。计算机的内存简单点理解，其实就是将一系列存储单元和译码器组装在一起。内存中包含很多存储单元，为了方便管理，我们需要将这些存储单元进行编号管理，每一个存储单元对应一个编号。当CPU 想访问其中一个存储单元时，可通过CPU 管脚发出一组信号，经过译码器译码，选中与这个信号对应的存储单元，然后就可以直接读写这块内存了。CPU 管脚发出的这组信号，也就是存储单元对应的编号，即地址。

2.总线简介
如果CPU 和内存RAM 直接相连，那么内存RAM 中的每一个存储单元的地址也就确定了。

现在的CPU一般通过总线与内容RAM、外部设备想连。CPU 和各个设备之间可以通过共享总线的方式进行通信。

总线其实就是各种数字信号的集合，包括地址信号、数据信号、控制信号等，由于遵循相同的总线协议和通信标准，不同厂家生产的显卡、CPU、鼠标、键盘等外设都能够即插即用。

也就是说CPU通过一些信号来和内存或者设备进行联系。

3.总线编址方式
内存RAM 和外部设备都挂到同一个总线上，计算机一般采用两种编址方式：统一编址和独立编址

统一编址:内存 RAM 和外部设备共享CPU 的寻址空间。
在统一编址模式下，CPU 可以像操作内存一样去读写外部
设备的寄存器和内部RAM。

独立编址:内存RAM 和外部设备的寄存器独立编址，分别占用不同的地址空间。

三.指令集与微架构

1).什么是指令集？
图灵原型机的基本思想是：任何复杂的运算都可以分解为有限个基本指令的组合来完成。 CPU的设计是只支持有限个基本的运算指令，如加、减、乘、与、或、非、移位、跳转等。这些指令通过不同的组合，可以构成不同的指令序列（程序），实现不同的逻辑功能。

不同架构的处理器支持的指令类型是不同。

ARM 架构的处理器只支持ARM 指令，X86架构的处理器只支持X86 指令。如果你在ARM 架构的处理器上运行X86 指令，就无法运行，报未定义指令的错误，因为ARM 架构的处理器只支持ARM 指令集中定义的指令。

指令集作为CPU 和编译器的设计规范和参考标准，主要用来定义指令的格式、操作数的类型、寄存器的分配、地址的格式等

CPU 支持的有限个指令的集合，我们称之为指令集。
指令集是芯片设计者制定的一种规范标准。

2).指令集的基本构成
在这里插入图片描述
指令集不是一成不变的，随着迭代更新会不断扩充新的指令。
例如ARM指令集，已经从ARM V1发展到目前的ARM V8。

名称	介绍
ARM V1	初版本， 26 位寻址空间，无乘法指令，没有商业化。
ARM V2	加了乘法指令，支持协处理器。
ARM V3	址范围从26 位扩展到32 位。
ARM V4	次增加Thumb 指令集。
ARM V5	加了增强型DSP 指令、 Java 指令。
ARM V6	首次增加60 多条SIMD 指令。
ARM V7	增加长乘法指令、NEON 指令。
ARM V8	首次增加64 位指令集、寄存器数量增加到31 个。

什么是微架构？
微架构，也就是处理器架构，指令集在CPU处理器内部的具体硬件电路的实现，我们就称为微架构。

设计微架构需要考虑的问题：
1.处理器是否支持分支预测？
2.单发射还是多发射？
3.顺序执行还是乱序执行
4.流水线需要多少级？
5.主频需要多高？
6.Cache 需要多大？
7.需要几级Cache？

根据不同的配置选项，我们可以基于一套指令集设计出不同的微架构。

在X86 处理器领域，目前能获得X86 指令集授权，并基于该指令集设计微架构和处理器的厂商有三家： Intel、AMD 和上海的兆芯

这三家厂商一般会根据新版本的X86 指令集设计出各自的
微架构，然后基于各自的微架构设计出不同的CPU。

X86微架构的缺点：
除了上述三家公司，其他公司一般无法获得授权去设计和生产自己的X86 处理器。

而ARM 则不同，通过开放ARM 指令集授权，其他公司可以基于授权的指令集去设计自己的微架构和SoC芯片，或者基于 ARM 官方的微架构直接去设计自己的SoC处理器。

所以微架构一般也称为CPU内核。

题目:
选择题:
1.以下哪个是图形处理单元( )
a. IPU     b.VPU    c.GPU    d.APU

2.目前地平线使用的微架构是( )
a.X86
b.SoC
c.Cortex-A8 
d.ARM V8

填空题
1.目前的微架构领域主要包括( )和( )。
2.计算机一般采用( )和( )编址方式。
3.地平线自研处理器叫( )。
4.目前公司采用的显卡名称叫( )。

在这里插入图片描述