自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 CPU、GPU、NPU......

MPU注重通过较为强大的运算/处理能力,执行复杂多样的大型程序,通常需要外挂大容量的存储器,例如intel的X86,ARM的一些Cortex-A,飞思卡尔的i.MX6、全志A20、TI AM335X等都属于MPU。而MCU通常运行较为单一的任务,执行对于硬件设备的管理/控制功能。: Data Processing Unit ,数据处理器,对CPU的部分工作利用自身算力特长进行加速,且实现了计算的隔离,相比于CPU而言,DPU更擅长基础层应用任务,例如网络协议处理,交换路由计算,加密解密,数据压缩等。

2024-01-10 22:33:25 765

原创 通用图形处理器设计——GPGPU编程模型与架构原理(五)

若被除数尾数的绝对值大于除数尾数的绝对值,需对被除数进行调整,即被除数的尾数每右移1位,阶码加1,直到被除数尾数的绝对值小于除数尾数的绝对值。并且在浮点数乘除运算的结果中,由于乘积和商的绝对值一定小于1,因此在浮点乘除运算结果进行规格化处理时只存在向左规格化,不可能出现向右规格化。浮点数的格式:符号位(s)+指数位(e)+尾数位(f)。判断溢出:浮点数乘除运算结果的尾数不可能发生溢出,而浮点数运算结果的溢出则根据运算结果中浮点数的阶码来确定,溢出的判定和处理方法与浮点加减运算完全相同。

2024-01-06 11:49:09 1216 1

原创 通用图形处理器设计——GPGPU编程模型与架构原理(四)

为了减小GPGPU寄存器文件的面积并维持较高的操作数访问带宽,GPGPU的寄存器文件往往会采用包含多个板块的单端口SRAM来模拟多端口的访问。多板块组织的寄存器文件基本结构如图4-3所示,其中数据存储部分由四个单端口的逻辑块组成。逻辑板块采用一个对等的交叉开关与RR/EX(register read/execution)流水线寄存器相连,将读出的源操作数传递给SIMT执行单元,执行单元的计算结果写回板块。

2024-01-06 11:48:34 1312 1

原创 通用图形处理器设计——GPGPU编程模型与架构原理(三)

基于GTO的关键性感知线程束调度策略(gCAWS),改进了调度选取线程束的机制,每次选择关键度最高的一个线程束执行,当有多个关键度相同的线程束时,选择生命周期最长的线程束执行,在执行阶段不断更新关键度的值。线程块被分配给一个可编程多处理器后,GPGPU会根据线程编号,将若干相邻线程组成线程束,按照锁步方式执行,所有线程进度一致,一个线程束共用一个PC,多个线程等价于多个向量操作,其向量宽度也就是线程束大小。影响线程束关键性的因素:(1)线程分支导致的工作负载差异,哪个路径指令多,对关键性影响越大;

2024-01-06 11:47:06 1360 1

原创 通用图形处理器设计——GPGPU编程模型与架构原理(三)

典型的CPU-GPGPU异构计算平台如图3-1所示,CPU作为控制主体统筹整个系统的运行,PCI-E充当CPU和GPGPU的交流通道,CPU通过PCI-E与GPGPU进行通信,将程序中的内核函数加载到GPGPU的计算单元阵列(SM/CU)和内部的计算单元(SP/PE)上执行。典型的GPGPU架构及可编程多处理器的组成如图3-2所示。SM/CU构成GPGPU核心架构主体,SM/CU通过互连与多个存储分区(L2 cache和对应的DRAM)相连,实现更高并行度的高带宽访存操作。

2024-01-06 11:47:02 1784 1

原创 通用图形处理器设计——GPGPU编程模型与架构原理(二)

可以提供线程块内部已有__syncthreads()类似的同步操作,还可以提供更为丰富多样的线程组合及其内部的通信和同步操作,如单个GPGPU上的线程网格或多个GPGPU之间的线程网格。(2)本线程索引减去i,并返回该索引的寄存器v的数据表决操作:g.all(p1):如果组内所有线程的谓词寄存器p1都为1,则返回1,否则为0;线程块是线程的集合。(3)__threadfence()_system():与__threadfence()类似,作用范围是系统内部的所有线程,包括主机端的线程以及其他设备的线程。

2023-07-25 11:13:39 396

原创 验证环境配置

具体安装流程及环境搭建可参照公众号《亦安的数字小站》验证软件:cadence+synopsys。验证环境:虚拟机+Ubuntu。

2023-07-13 14:35:43 148

原创 通用图形处理器设计——GPGPU编程模型与架构原理(一)

GPGPU(General Purpose Graphics Processing Unit,通用图形处理器):由GPU逐渐发展成为并行计算加速的通用图形处理器;能够很好地适应当今并行计算的需求,已经成为深度学习训练和推理任务最重要的计算平台。并行计算机:一些处理单元的集合,通过通信和协作快速解决一个大的问题。处理单元:具有指令处理和计算能力的逻辑电路。(处理器核心,处理器芯片或整个计算节点)处理单元的集合:定义了并行计算具有一定规模。通信:处理单元彼此之间的数据交互。

2023-07-13 11:22:56 1984

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除