异构多处理系统

早期嵌入式处理系统通常由一个微控制器和一系列外设构成。这些系统通常用来完成获取少量数据、处理数据、做出决策、基于决策结果输出信息等工作。在某些情况下会实现简单的人机交互接口如读取键盘并显示结果。处理需求、同时产生需求,以现在的标准来看似乎微不足道。

现代嵌入式系统通常需要处理和分析十亿字节级的海量数据,而且常常在确定性和低延时运算上还有一些额外要求。许多应用还要求系统在满足相关行业标准的同时可靠符合可靠性和安全性要求。

目前,似乎还不可能在单一处理器上同时满足处理高带宽数据、执行系统应用程序、响应实时请求并满足行业安全标准。然而,多核异构芯片却可以实现这些功能。这样的设备具有多个处理单元,每一个单元都有能力负责处理一个或多个前述需求,我们称这样的设备为异构处理系统。

什么是异构多处理?

一个异构多处理系统由不同类型的多个单核心或多核心处理器构成,异构多核处理系统最简单的形式是由一个多核处理器和GPU组成。然而,现代科技让一颗芯片上的异构多处理系统包含以下模块:
①多核应用处理器(Multicore Applications Processors);
②多核图形处理器(Multicore Graphics Processors;
③多核实时处理器(Multicore Real-Time Processors);
④平台管理单元(Platform Management Unit);
⑤配置和安全系统(Configuration and Security Unit);
⑥在FPGA可编程逻辑上实现特定多核处理器。

使用FPGA逻辑实现多核处理器的优势是:它可以创建自定义特殊应用处理器,通过并行Pipes和多Pipeline stages来实现二维并行数据处理,使得在一个时钟周期里可以完成大量的计算。

多核处理器可以设计用来执行通用计算或者是专用计算。和通用处理器执行相同功能相比较,专用计算在减小硅片封装、提高单时钟周期吞吐率、低功耗的同时能实现数据优化处理。

异构计算系统

异构计算系统有两种实现方式:
一是将多个不同类型处理器芯片通过片间集成的方式实现节点级异构计算(称之为片间异构);
二是基于单(硅)片内集成多个不同处理器内核的异构计算芯片实现,即异构计算在芯片级实现(称之为片内异构)。第二种异构计算芯片技术是当前最新技术。

异构计算芯片是将不同架构的中央处理器CPU(Central Processing Unit)、图形处理器GPU (Graphics Processing Unit)、数字信号处理器DSP(Digital Signal Processor)和FPGA(Field Programmable Gate Array)等特定硬件加速单元依据相关技术标准和规范有机内在融合在一颗芯片上,任务由最合适的工作单元来承担,不同异构内核之间实现协同计算。随着同构多核达到一定程度,通过核的堆叠提升计算性能遇到严重挑战,芯片级异构计算能够消除同构计算时CPU、GPU、DSP之间数据传输时间,大大提升计算效率,并且以良好的性能协同支持图形处理、信息通信、人工智能、大数据等多领域应用,基于统一编程规范和标准,能大幅减小软件开发编程难度、降低产品研制和维护成本。芯片级异构计算已经成为解决计算与效能瓶颈的主流技术之一。

同构计算:使用相同类型指令集和体系架构的计算单元组成系统的计算方式。
异构计算:使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU、ASIC、FPGA等。

异构厨房系统:

有一个大厨(CPU),能做各种菜(兼容性好),但是某些大量重复的动作(例如切菜)明显减慢了他做菜的速度。原来客人都点炒青菜,拌黄瓜之类的,大厨自己还算能胜任,但是最近(大数据时代到来),客人要求高了很多,开始点各种大菜(大量数据复杂处理)。

大厨力不从心,于是老板需要找个帮手(协处理器)来帮助他,比如在切菜方面,这个帮手可以同时处理很多菜品(并行处理),而且速度很快(低延时)。希望在合理的分工协作下,厨房能满足新的需求。

为什么CPU在大量数据处理时效率不高?

在之前餐厅的例子里,大厨CPU能灵活控制整个做菜流程,更偏向一个控制者,但很多场景下并不是最好的执行者。CPU作为通用处理器,也是更偏重支持控制流数据。CPU每个物理核中大部分的硬件资源被做成了控制电路和缓存,用来提高指令兼容性和效率。只有小部分是真正用来计算的逻辑运算单元(ALU)。在这样的架构下,CPU能兼容大量指令,但是实际的计算效率并不高。
而且,CPU这个大厨很健忘,每做完一步都要去看看菜谱,甚至健忘到切菜每切一刀,都要去看看下一刀怎么切。实际运行中,CPU的代码都存在Memory这个“菜谱”中,需要经过取指令,译码,然后才能执行指令。在这个流程中,取指令,译码会开销额外的时间,降低了数据处理速度。
在这里插入图片描述
同构厨房系统:
有人会说,为啥不再雇个大厨(双核),这样组成一个同构厨房系统不好吗?当然可以,因为之前的芯片结构貌似就是这样迭代的。但是或许有以下缺陷无法避免:

大厨贵 – 价格
大厨在某些方面其实不一定擅长,比如你切菜切得过料理机吗?-- 性能
厨房就这么大,再来个人可能没空间 – 芯片面积
大厨吃的比较多,老板想省点 – 功耗

对协处理器的要求?

老板对这个帮手也是精心挑选的,主要体现在:
最好能提供多样的菜品加工能力,比如洗菜,切菜一体化。(算法性能)。异构系统中,High Performance Compute要求全面实现加速算法,而不是仅仅是几个步骤。所以协处理器需要能全面支持需要用到的场景关键算法。
支持同时、快速加工(数据并行处理能力,低延时处理能力)。协处理器需要有大量的数据并行通道,每个通道需要支持低延迟的数据管线处理。

便于操作和菜品存取(接口性能)。要提供合适的接口带宽,快速,安全地和主处理器进行数据交互。
安装方便,能更新处理流程(配置灵活)。用户能方便地安装,配置,最好能更新协处理器的功能,方便日后计算需求的升级迭代。
节能(功耗)。更低的功耗意味着更低的运行成本,更小的空间占用和更简单的热处理方案。

GPU:动作很快的笨笨小帮厨

GPU和CPU都属于通用处理器,但是却有不同的架构。如果把CPU大厨形容为“头脑发达(控制电路多),四肢简单(计算电路少)”,那么GPU帮厨正好相反。在GPU中,硬件资源被大量用作逻辑运算单元(ALU),小部分用作控制电路。这为大规模的数据并行处理提供了基础。其实,这个帮手在特定工作中远远超过了师傅(切菜洗菜超级快),大厨可以放心地把算法简单、重复性高、需要大量并行操作的工作交给它。

但是CPU支持的控制复杂度较低。当你要求笨笨的GPU把所有菜都切丝,它一定完成得又快又好,但是你告诉它:“土豆切丝,洋葱切片,南瓜雕花……”它就没有那么高效了。这是因为,复杂的控制流程会产生大量的分支(如编程语言中的case和if else),而GPU中一个控制单元要负责好几个计算单元。所以,如果要最大程度地使用GPU,势必要求控制分支越少越好。
另外,GPU有CPU大厨的共同毛病:健忘(需要从Memory读取指令),这带来了一系列问题(如功耗大,基于指令系统,要译码)。

ASIC: 最强订制料理机

如果给ASIC牌料理机制定一句广告语,我觉得是:最快速度,最低能效,您厨房的最强帮手。

我们先来看看为什么ASIC像“料理机”。因为它摆脱了指令系统,没有了“健忘”问题,所有功能都固化了交付给客户,更像一台厨房机器。ASIC的中文全称是“特殊订制集成电路”。它是订制的,也意味着不需要去纠结CPU和GPU怎样分配控制资源和计算资源的问题了,想怎么分配就怎么分配。
编程语言越接近底层硬件,运行速度越快。ASIC的设计是直接用软件思维搭建硬件电路,所有的设计是直接建筑在物理硬件(门电路)上的。所以,ASIC不需要取指令和译码,每个时间单位都能专注于数据处理或者传输,大大提高了效能。直接设计的硬件结构也让数据处理管线真正实现,每一级的处理结果能直接用于下一级的输入,无缝连接。在一定规则下(比如一定芯片面积和布线规则下),并行通道可以最大化叠加(这句没理解是啥意思)。在功耗方面,因为硬件利用的最大化,是所有协处理器里最小的。
那么厉害的ASIC,看来我们的最佳方案一定是它了吧,问题来了:ASIC料理机哪里能买到呢?对不起,哪里都买不到,刚刚说了只能订制。这个过程很漫长,带来的风险自然很大。更重要的是,CPU大厨在拿到专属料理机后,如果突然有一天想把功能更新一下,比如原来土豆切丝,现在想切土豆片了。很抱歉,只能再订制一次。

FPGA: 可变化的万能料理机

FPGA也是料理机,也没有指令系统。和ASIC一样:它的设计也是直接建筑在物理硬件上。这样的结构就已经注定了FPGA在大量数据处理时的优势。事实上,它几乎具有ASIC的所有优点,速度功耗也远远优于通用处理器,但是和ASIC对比,还稍微差一点,例如:功耗大一点,速度慢一点,同样芯片面积下能实现的功能弱一点。不过,FPGA却有一个巨大优势。

FPGA,中文全称“现场可编程门级列阵”。对比ASIC,有三个字无比耀眼:可编程。可编程意味着可改变。今天切土豆丝,明天切土豆片,都没有问题了,不需要进行芯片重新订制,灵活性堪比通用处理器。对比ASIC的研发流程,FPGA开发可以快速试错迭代,缩短了开发时间。其实,在半导体界,FPGA有“万能芯片”的美誉,它以可编程和灵活的直接基于硬件订制两大法宝,在众多应用场景中有着重要地位。
FPGA的主要问题在开发。FPGA料理机交付客户时其实是一个空机器,里面什么功能都没有,需要客户根据自己的需求一点点搭建。这个难度不低,主要原因是:异构算法的开发人员大部分是软件人员,缺乏对FPGA结构和数字电路的了解,编程语言也不统一(CPU端是C、C++等等,FPGA端是VHDL、Verilog)。目前解决这个问题的方法是OpenCL和HLS(High Level Synthesis)技术,支持直接把C、C++代码编译成Verilog,虽然目前转化效果仍然有待提高,但是随着这些技术的成熟,相信FPGA会站上异构计算的舞台中央。

参考链接

参考链接2

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值