文献阅读(302)CGRA DVFS&ChordMap

  • 题目:Ultra-Elastic CGRAs for Irregular Loop Specialization
  • 时间:2021
  • 会议:HPCA
  • 研究机构:cornell

1 contribution

利用细粒度的 DVFS(Dynamic Voltage and Frequency Scaling)动态电压频率调节,来解决运算不平衡问题
在这里插入图片描述
比如说上面的计算图,两条支路下来,左面的支路是瓶颈,那么就用红色,也就是最高的电压,最快的时钟;右边的支路不是瓶颈,那么就用蓝色慢一点的时钟算就好,以此达到最佳的能耗比。
在这里插入图片描述

2 实现

只有ICC实现,TSMC 28nm,对于一个8X8的CGRA,只需要0.5mm X 0.5mm大小
在这里插入图片描述


  • 题目:ChordMap: Automated Mapping of Streaming Applications onto CGRA
  • 时间:2021
  • 期刊:TCAD
  • 研究机构:新国立

1 缩写 & introduction

  • SDF: Synchronous Data Flow
    论文首先说,目前还没有研究探究将SDF图映射到CGRA以优化吞吐

System-level mapping of the entire streaming application onto a resource-constrained CGRA to maximize throughput remains unexplored

而且,现有的很多针对FPGA的映射算法,多是空间维度的映射,没有考虑时间维度的映射,这是因为FPGA重新配置的代价更高
在这里插入图片描述

In this work, we introduce a novel CGRA mapper – ChordMap – that specializes in mapping streaming applications, represented as SDFs, onto CGRAs at compilation time

本篇论文的主要贡献: 提出了一套CGRA的映射方法,

  1. 利用分治法进行切分和时空映射
  2. 在映射过程中,综合多个级别的并行度,以及片上buffer的约束条件

2 SDF图

对于SDF图,节点表示kernel或运算,边表示数据的产生与消耗,其中数字就表示数据的产生或消耗速度,所以Fig.3需要Fig.4这样的展开,实现pipeline以减少数据缓冲区的开销
在这里插入图片描述
这里我们可以假设A、B、C的运算次数分别为320、160和480,显然最优的分配数量是2:1:3,映射到4x4的CGRA的话大约就是5:3:8或者4:4:8,
在这里插入图片描述

  • 对于a,采用了4:4:8的映射,那么运算时间就是80+40x2+60x4=400,240=400-80-40x2,即启动延时为240,后面C都会一直跑满,成为瓶颈
  • 对于b,采用了4:4:12的映射,运算时间为80+40x2+40x4=320,启动延时为160,CGRA利用率为100%
    在这里插入图片描述

相比而言可以发现,a和c的映射方式对于FPGA其实也同样适用,即A、B、C各自对应的PE单元不会混用,当然会影响硬件利用率。
c和d是同样的道理,不过性能都不如b好罢了,为啥c和d仍然有存在的意义呢?是因为 c和d所需要的片上buffer大小比a和b小,因为a和b是把A和B的所有结果都算出来了,而c和d只算了A的全部和B的一半,节省了buffer大小
在这里插入图片描述

3 Workflow

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值