![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CGRA
文章平均质量分 78
tiaozhanzhe1900
FPGA
展开
-
文献阅读(307)AccelWattch
提出了一个GPU功耗模型,考虑了DVFS, thread divergence, intra-warp functional unit overlap, variable SM occupancy, and power gating。功耗可以分成三部分,恒定功耗、静态功耗和动态功耗。原创 2024-06-25 10:30:17 · 536 阅读 · 0 评论 -
文献阅读(305)模图嵌入
文章目录题目:Modulo Graph Embedding: Mapping Applications onto Coarse-Grained Reconfigurable Architectures时间;2006会议:DAC研究机构:密西根大学本篇论文的主要贡献:利用图论中的图嵌入,它用于将循环体绘制在CGRA硬件上,并服从模资源使用约束The loop body is essentially drawn onto the CGRA mesh, subject to modulo re原创 2021-10-26 13:28:59 · 1140 阅读 · 0 评论 -
文献阅读(304)CGRA 模调度&多数据流
文章目录1 introduction & abstract题目:Towards Higher Performance and Robust Compilation for CGRA Modulo Scheduling时间:2020期刊:IEEE Transactions on Parallel and Distributed System研究机构:交大绳伟光1 introduction & abstract需求:在可接受的编译时间内有效地将循环部署到CGRAs上难点:C原创 2021-03-24 15:39:19 · 1905 阅读 · 0 评论 -
文献阅读(302)CGRA DVFS&ChordMap
文章目录1 contribution2 实现题目:Ultra-Elastic CGRAs for Irregular Loop Specialization时间:2021会议:HPCA研究机构:cornell1 contribution利用细粒度的 DVFS(Dynamic Voltage and Frequency Scaling)动态电压频率调节,来解决运算不平衡问题比如说上面的计算图,两条支路下来,左面的支路是瓶颈,那么就用红色,也就是最高的电压,最快的时钟;右边的支路不是瓶颈,那原创 2021-08-16 15:41:54 · 391 阅读 · 0 评论 -
文献阅读(303)CGRA子图解耦合 & 访存优化
文章目录1 introduction题目:Subgraph Decoupling and Rescheduling for Increased Utilization in CGRA Architecture时间:2021会议:DATE研究机构:上海交大1 introduction本篇论文的重点在于提高PE利用率,比如下图中的嵌套循环,黄色和粉色逻辑分别映射到不同的PE中,但内侧循环一直在执行,黄色的PE隔很久才执行一次,利用率较低再比如说分支逻辑,true和false两条不同的分支如果原创 2021-09-15 09:37:47 · 706 阅读 · 0 评论 -
文献阅读(301)稀疏矩阵乘
文章目录1 introduction2 方法题目:Sparse Tensor Core: Algorithm and Hardware Co-Design for Vector-wise Sparse Neural Networks on Modern GPUs时间:2019会议:MICRO研究机构:阿里巴巴/UCSB1 introduction在神经网络中,稀疏剪枝很常见,但是GPU的Tensor Core主要是面向密集矩阵乘优化的,对于稀疏矩阵的优化还不够本篇论文的主要贡献:证明G原创 2021-09-12 15:25:12 · 1186 阅读 · 1 评论