CPU、GPU、NPU......

CPU:Central Processing Unit,主要架构包括控制单元,ALU,Cache以及各个单元连接的总线;

GPU:Graphics Processing Unit,主要架构包括大量简单ALU,CU和存储单元,主要用于图像数据的并行计算;

NPU:Neural Network Processing Unit,神经网络处理单元(AI处理器),通过结合深度学习计算的特点,实现存储和计算一体化的架构,从而提高AI任务的运行效率,主要分为终端,云端和边缘端。

DPU: Data Processing Unit ,数据处理器,对CPU的部分工作利用自身算力特长进行加速,且实现了计算的隔离,相比于CPU而言,DPU更擅长基础层应用任务,例如网络协议处理,交换路由计算,加密解密,数据压缩等。

MPU: Microprocessor unit 微处理器

MCU: Microcontroller Unit 微控制单元

MPU注重通过较为强大的运算/处理能力,执行复杂多样的大型程序,通常需要外挂大容量的存储器,例如intel的X86,ARM的一些Cortex-A,飞思卡尔的i.MX6、全志A20、TI AM335X等都属于MPU。而MCU通常运行较为单一的任务,执行对于硬件设备的管理/控制功能。通常不需要很强的运算/处理能力,因此也不需要有大容量的存储器来支撑运行大程序。通常以单片集成的方式在单个芯片内部集成小容量的存储器实现系统的“单片化”,例如51,STM,Cortex-M这些芯片。

TPU: Tensor Processing Unit, 张量处理器。

(1)深度学习的定制化研发:TPU 是谷歌专门为加速深层神经网络运算能力而研发的一款芯片,其实也是一款 ASIC(专用集成电路)。

(2)大规模片上内存:TPU 在芯片上使用了高达 24MB 的局部内存,6MB 的累加器内存以及用于与主控处理器进行对接的内存。

(3)低精度 (8-bit) 计算:TPU 的高性能还来源于对于低运算精度的容忍,TPU 采用了 8-bit 的低精度运算,也就是说每一步操作 TPU 将会需要更少的晶体管。

DSP:是由大规模或超大规模集成电路芯片组成的用来完成数字信号处理任务的处理器。DSP主要用来开发嵌入式的信号处理系统,不强调人机交互,不需要太多通信接口,结构也较为简单,便于开发。

### CPUGPUNPU 的区别及其应用场景 #### 中央处理器 (CPU) 中央处理器(CPU),通常被称为计机的大脑,设计用于处理广泛类型的计任务。这些任务包括但不限于运行操作系统功能、管理输入输出操作以及执行应用程序逻辑。现代多核CPU能够高效地分配资源来并发处理多个线程的任务[^1]。 对于批处理大小设置,默认每设备训练批次大小为8,适用于CPU核心的配置说明也体现了这一点。这意味着,在训练期间,每个CPU核心会接收固定数量的数据样本进行处理,以此平衡负载并提升效率。 ```python per_device_train_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for training."} ) ``` #### 图形处理器 (GPU) 图形处理器(GPU)最初是为了加速图像渲染而设计的硬件单元,但随着技术的发展,其应用范围已经扩展到通用计领域。相比于传统CPUGPU拥有更多的处理单元(ALUs),特别适合大规模矩阵运和平行数据流处理。因此,在机器学习特别是深度学习方面表现尤为突出,因为这类法往往涉及大量相似结构化的重复计工作[^2]。 当涉及到评估阶段时,同样采用默认值8作为每设备评测批次尺寸,表明即使是在不同架构下(如GPU),保持一致性的批量规模有助于维持稳定性和可预测性。 ```python per_device_eval_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for evaluation."} ) ``` #### 神经网络处理器 (NPU) 神经网络处理器(NPU)是一种专门为人工智能推理和训练定制优化过的集成电路芯片。相较于其他两种类型,NPUs更专注于支持特定的人工智能框架和技术栈,比如TensorFlow或PyTorch等,并且内置了许多针对卷积层、激活函数以及其他常见AI组件的高度专业化指令集和支持库。这使得它们能够在更低能耗的情况下实现更高的吞吐量和更快的速度,非常适合部署在边缘端设备上完成实时分析任务。 例如,在移动平台上,通过利用像苹果公司的Metal API这样的接口,可以更好地发挥出集成在其SoC内部的小型专用AI协处理器——即所谓的“Apple Neural Engine”的潜力,从而显著改善用户体验的同时减少延迟时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值