The Accelerator Wall: Limits of Chip Specialization
-
摘要:
- 加速器墙:芯片上可用晶体管数量的停滞将限制加速器的设计优化空间,导致专有化硬件回报的减少,最终将会遇到加速器墙
- 论文工作:探讨了在未来加速器和定制化芯片的限制将会有哪些
- 论文使用数千个芯片的数据表(datasheet)构建的模型工具,论文描述了当前加速器如何依赖于CMOS缩放(scaling)
- 论文识别了在专有化芯片中使用的关键概念,并且通过探索研究案例,了解了专有化在不同的应用程序和芯片平台(GPU,FPGAs,ASICs)中是如何发展的,并且据此构建了模型,以预测未来可以利用专有化芯片获得什么,不能获得什么
- 用途:通过对芯片专有化收益和技术边界的定量分析,帮助研究人员理解加速器的局限性和开发克服这些局限性的方法
-
介绍
- 专有化芯片普遍存在的三个动机
- 摩尔定律接近尾声,Dennard的缩放定律的结束,芯片的功耗预算逐渐在被限制(power budget limitation)
- 在电池容量有限的移动设备和仓库规模的数据中心中,应用程序的计算需求不断增长(growing computation demand)
- 计算密集型程序中出现了高重用率的计算末世,例如深度学习中的矩阵向量乘法或者挖矿程序中的加密哈希(high reuse rate computation-patterns)
- 通过牺牲灵活性和针对特定的应用领域,专有芯片在相同功耗约束的情况下,可以提供更高的性能
- 论文的关注重点:应用芯片专门化所带来的限制
- 加速器墙:用于专有化单个应用程序的优化空间是有限的,将计算问题映射到固定的芯片资源的方法是有限的,因此在给定领域和预算下,可获得的芯片的收益也是有限的。但是随着CMOS缩放定律接近尾声,芯片的晶体管预算也会被限制,优化最终带来的收益将会减少,加速器将达到接近最优计算和硬件协同优化的极限
- 论文贡献:
- 论文利用上千个芯片的CMOS缩放公式和数据表构建了一个独立于应用的芯片CMOS潜力模型,从而解耦CMOS技术和专有化芯片对加速器收益的贡献
- 论文提出了专有化芯片收益的度量标准(CSR,chip specialization return),并且研究了流行的应用程序和不同的加速器平台,以量化CSR是如何随着加速器收益的提高而变化的
- 论文确定了常见的芯片专有化技术和这些技术的理论限制
- 论文构建了一个基于Aladdin和CMOS缩放公式的建模框架,在一系列加速器基准测试上梳理了专有化技术和CMOS工艺缩放带来的好处
- 论文对评估的应用进行了帕累托最优的投影研究,并预测了晶体管缩放结束时加速器潜力的极限
- 专有化芯片普遍存在的三个动机
-
CMOS缩放(scaling)和芯片专有化收益的相互作用(interplay)
-
定量芯片专有化的收益(quantifying):CSR(Chip specialization return)。
-
芯片的收益(gain)时通过在目标芯片上执行目标计算来测量的,它依赖于未固定的层,算法(Alg),框架(Fwk),平台(Plt),工程(Eng),物理(Phy)
-
由于芯片结构的复杂性,无法测量单个原件对整体收益的贡献情况,因此将CSR定义为芯片物理特性带来的收益和所有收益之间的比值
C R S ( A l g , F w k , P l t , E n g ) = G a i n ( A l g , F w k , P l t , E n g , P h y ) G a i n ( P h y ) CRS(Alg,Fwk,Plt,Eng)=\frac{Gain(Alg,Fwk,Plt,Eng,Phy)}{Gain(Phy)} CRS(Alg,Fw
-
-