【OpenCL基础 · 一】因源

辣椒油li

已于 2023-09-01 22:43:26 修改

阅读量680

点赞数 2

分类专栏：计算机组成与设计文章标签：嵌入式硬件 opencl 异构并行

于 2023-09-01 19:47:49 首次发布

本文链接：https://blog.csdn.net/lijianyi0219/article/details/132609945

版权

计算机组成与设计专栏收录该内容

7 篇文章 5 订阅

订阅专栏

文章目录

前言
一、单核标量处理器的瓶颈
- 1.提升时钟频率
- 2.提升指令级并行能力
二、多核和向量化
- 1.多核
- 2.向量化
三、异构并行和OpenCL
- 1.GPGPU
- 2.CUDA和OpenCL

前言

随着人工智能的发展以及大部分场景中实时性的要求，人们对于计算机算力要求逐渐增加。为了提高计算速度，计算平台从单核发展为多核，从标量数据发展为向量化运算，进而发展到当下流行的异构并行计算。

异构，是指计算硬件平台由不同架构的处理器组成，如CPU+GPU、CPU+FPGA、CPU+DSP，甚至是CPU+GPU+FPGA。异构相当于使用了一个具有多处理器的计算平台，博众家之长，以获得优异的算力，加快任务的处理速度。其中CPU擅长调度，GPU擅长向量运算，DSP擅长数字信号处理，FPGA则利于用户自定义配置。

并行，是发挥异构平台效能所必须采用的运行方式，它包含两个含义：一是不同架构的处理器需要同时计算，避免闲置；二是每个处理器一般都是多核向量处理器，需要使用并行编程以充分发挥处理器的计算能力。

所以，“异构并行”是一个不可分割的词组。

OpenCL（Open Computing Language）就是在异构并行计算发展的道路上，兴起的一种编程语言模型，由于其开源性和高度通用的跨平台设计原则，得到了多家处理器大厂的支持，包括AMD、Intel、Altera等。

本文对异构并行计算的起源、及OpenCL的出现进行介绍，方便大家进一步体会设计师在算力提升道路上的努力。

参考：《OpenCL异构并行计算——原理、机制与优化实践》

一、单核标量处理器的瓶颈

在2005年前，大部分处理器都是单核的，并且大部分的应用程序只使用了单核处理器的标量性能，即在同一时间内只处理一个数据（整数或浮点数），称为SISD（单指令单数据流）。基于CISC、RISC指令集设计的处理器即属于SISD类。

对于单核标量处理器而言，性能提升只能从以下两个方面入手，

提升处理器的时钟频率
提升指令级并行能力

然而，两条路都会遇到发展瓶颈。 摩尔定律称 “单核标量处理器性能每18个月提升一倍”，这条定律在2005年之后就不灵了==

1.提升时钟频率

处理器的时钟频率表示处理器1秒内可以运行多少个基本操作，每个基本操作需要占用一个时钟周期。一些复杂的操作则需要占用几个时钟周期，而一条指令包含了多个基本/复杂操作。当我们提升处理器的时钟频率时，1秒内处理器就可以执行更多的操作，也就能加快指令的执行速度，从而增加了算力。

一般情况下，能显著提高处理器时钟频率的方法是减小芯片制程。

这里解释一下为什么制程影响时钟频率。处理器芯片绝大多数属于数字逻辑芯片，其主要组成是大量的晶体管，芯片制程指晶体管栅极的最小宽度（即常说的7nm、14nm…）。当制程越小时，电流通过栅极的速度越快，晶体管的翻转速度就越快，也就可以支持较大的时钟频率。
我们常说的超频则是指使CPU在超过其额定时钟频率下工作，这可能导致晶体管的状态来不及变化，产生死锁或丢数等故障。

减小芯片制程，在提高时钟频率的同时，还能减小晶体管体积，使得芯片上可以布下更多的晶体管，进一步提升算力。

但更高的时钟频率也带来了更多的功耗（主要是漏电功耗），大致来说处理器的功耗和处理器频率的三次方近似成正比。功耗带来热量，处理器的频率增大的同时，散热也在增多。在处理器的散热达到现实环境、技术能够满足的界限时，无法再增加频率，否则处理器会烧毁。

因此，功耗限制了时钟频率的提升！

2.提升指令级并行能力

处理器在执行指令时可分为五个步骤：取指令、指令解码、执行、访存和写回
为了增大数据吞吐量，处理器会采用流水线的方式执行指令，流水线工作原理可参考：
【计算机组成原理】流水线式指令执行

由于指令中存在分支判断、数据依赖等情况，因此流水线的执行有很大优化空间，尤其需要编译器在编译源码时充分考虑代码运行特点，合理安排流水线，以生成较优的执行文件。

但是要利用好指令级并行能力，对于代码优化人员、编译器作者和处理器设计师都有很高的要求。他们采取的优化方式包括合理重用寄存器、增加硬件流水线层级等。

目前，提升指令级并行能力也达到了一定局限性。

二、多核和向量化

1.多核

前面讲过，在单核上不断提高时钟频率以谋求更高的计算性能，会使得功耗越来越大，芯片难以承受。但换一种思路，为何非要单打独斗呢？

因此多核出场了，在一个芯片上使用多个核心共同计算，可以起到“三个臭皮匠顶个诸葛亮”的效果。
并且，多核支持了多线程并行，每个核都可以运行一个任务，计算机可以同时处理用户的不同请求，提高使用体验。

2.向量化

向量化是指一条指令同时处理多个数据，是一种数据并行技术。
主流的向量化技术包括：单指令多数据（SIMD），单指令多线程（SIMT）

由于SIMD依赖于更多的处理器ALU，而SIMT依赖于多核，因此多数CPU采用SIMD技术，多数GPU采用SIMT技术。二者的具体介绍可参考：怎么理解SIMD和SIMT

若把标量运算看作是指令对一个数字进行操作，那么SIMD可以理解为指令对一个向量进行操作。一个向量中包含多个数字，因此一次指令的执行就可以获得多个数字的计算结果，相比于原来只能获得一个计算结果来说，SIMD提高了计算效率。可视化如下图
在这里插入图片描述
多核和向量化能大幅提升代码性能，但是需要程序员对代码进行并行化，需要分析代码中数据和操作的依赖关系，处理任务和数据的划分。