文献阅读（302）CGRA DVFS&ChordMap

最新推荐文章于 2024-09-16 16:29:00 发布

tiaozhanzhe1900

最新推荐文章于 2024-09-16 16:29:00 发布

阅读量411

点赞数 1

分类专栏： CGRA 文章标签：硬件架构

本文链接：https://blog.csdn.net/tiaozhanzhe1900/article/details/119734440

版权

CGRA 专栏收录该内容

6 篇文章 6 订阅

订阅专栏

文章目录

1 contribution
2 实现
1 缩写 & introduction
2 SDF图
3 Workflow

题目：Ultra-Elastic CGRAs for Irregular Loop Specialization
时间：2021
会议：HPCA
研究机构：cornell

1 contribution

利用细粒度的 DVFS(Dynamic Voltage and Frequency Scaling)动态电压频率调节，来解决运算不平衡问题
在这里插入图片描述
比如说上面的计算图，两条支路下来，左面的支路是瓶颈，那么就用红色，也就是最高的电压，最快的时钟；右边的支路不是瓶颈，那么就用蓝色慢一点的时钟算就好，以此达到最佳的能耗比。

2 实现

只有ICC实现，TSMC 28nm，对于一个8X8的CGRA，只需要0.5mm X 0.5mm大小
在这里插入图片描述

题目：ChordMap: Automated Mapping of Streaming Applications onto CGRA
时间：2021
期刊：TCAD
研究机构：新国立

1 缩写 & introduction

SDF: Synchronous Data Flow
论文首先说，目前还没有研究探究将SDF图映射到CGRA以优化吞吐

System-level mapping of the entire streaming application onto a resource-constrained CGRA to maximize throughput remains unexplored

而且，现有的很多针对FPGA的映射算法，多是空间维度的映射，没有考虑时间维度的映射，这是因为FPGA重新配置的代价更高
在这里插入图片描述

In this work, we introduce a novel CGRA mapper – ChordMap – that specializes in mapping streaming applications, represented as SDFs, onto CGRAs at compilation time

本篇论文的主要贡献： 提出了一套CGRA的映射方法，

利用分治法进行切分和时空映射
在映射过程中，综合多个级别的并行度，以及片上buffer的约束条件

2 SDF图

对于SDF图，节点表示kernel或运算，边表示数据的产生与消耗，其中数字就表示数据的产生或消耗速度，所以Fig.3需要Fig.4这样的展开，实现pipeline以减少数据缓冲区的开销
在这里插入图片描述
这里我们可以假设A、B、C的运算次数分别为320、160和480，显然最优的分配数量是2:1:3，映射到4x4的CGRA的话大约就是5:3:8或者4:4:8，

对于a，采用了4:4:8的映射，那么运算时间就是80+40x2+60x4=400，240=400-80-40x2，即启动延时为240，后面C都会一直跑满，成为瓶颈
对于b，采用了4:4:12的映射，运算时间为80+40x2+40x4=320，启动延时为160，CGRA利用率为100%

相比而言可以发现，a和c的映射方式对于FPGA其实也同样适用，即A、B、C各自对应的PE单元不会混用，当然会影响硬件利用率。
c和d是同样的道理，不过性能都不如b好罢了，为啥c和d仍然有存在的意义呢？是因为 c和d所需要的片上buffer大小比a和b小，因为a和b是把A和B的所有结果都算出来了，而c和d只算了A的全部和B的一半，节省了buffer大小
在这里插入图片描述