![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
编译优化
文章平均质量分 73
tiaozhanzhe1900
FPGA
展开
-
文献阅读(249)VTA&TVM
文章目录1 缩写2 abstract & introduction3 VTA硬件架构3.1 VTA指令集3.2 任务间流水线并行题目:VTA: An Open Hardware-Software Stack for Deep Learning时间:2018期刊:无研究机构:华盛顿大学/陈天奇1 缩写VTA: Versatile Tensor Accelerator2...原创 2019-10-16 19:01:47 · 1640 阅读 · 0 评论 -
文献阅读(247)AIpa
现有的分布式训练系统要么需要用户手动创建并行化计划,要么需要用户从有限的模型并行化配置空间中自动生成并行化计划,不适合在分布式设备上扩展复杂的DNN模型。本篇论文将分布式训练分成了inter-operator并行和intra-operator并行。inter-operator parallelism: 只需要在相邻计算阶段之间需要通信,但数据依赖可能导致设备的空闲时间。intra-operator parallelism: 硬件利用率更高,但每次训练迭代中需要在拆分和合并时进行通信。原创 2023-03-26 21:21:51 · 447 阅读 · 0 评论 -
文献阅读(246)Glow
文章目录1 缩写 & 引用2 abstract & introduction3 related work3.1 compiler-related project4 中间层表示4.1 motivation4.2 High-level IR4.3 node lowering4.4 low-level IR5 定点化题目:Glow: Graph Lowering Compiler T...原创 2020-01-12 10:11:32 · 529 阅读 · 0 评论 -
文献阅读(245)Roller
针对Nivida以外的硬件平台如AMD GPU和Graphcore IPU,采用构造的方式生成kernel原创 2022-07-27 10:44:49 · 260 阅读 · 0 评论 -
文献阅读(244)Accelergy&Timeloop
过去只有完成物理布局布线才能预测出能耗,而且仿真时间太长。这篇论文专注于功耗评估,与Eyeriss的精度相比达到了95%的精度原创 2020-10-10 15:39:46 · 1393 阅读 · 0 评论 -
文献阅读(243)DNNVM
文章目录1 缩写2 abstarct & introduction3 background and motivations4 Framework overview4.1 hardware design4.2 compiler infrastructure5 optimizations6 execution path searching20190924组会1 2019TCAD清华大学的DNNVM2 2018TCAD清华大学的Angel-Eye3 2018JSSC清华大学Hybrid Neural Ne原创 2019-10-13 23:36:24 · 195 阅读 · 0 评论 -
文献阅读(241)TENET
文章目录1 introduction题目:TENET: A Framework for Modeling Tensor Dataflow Based on Relation-centric Notation时间:2021会议:ISCA研究机构:北大1 introduction如何描述数据流? 本文总结了三种形式computation-centricdata-centricrelation-centric** relation-centric notation:**the lo原创 2022-04-23 19:26:23 · 491 阅读 · 0 评论 -
文献阅读(240)NAAS
本篇论文的主要贡献: 提出了神经加速器架构搜索 (NAAS),全面搜索神经网络架构、加速器架构和编译器映射原创 2022-04-05 01:41:12 · 237 阅读 · 0 评论 -
文献阅读(239)HLS设计空间探索
这篇论文就是HLS对设计空间探索的综述,会介绍各个方法的优缺点原创 2020-01-12 10:12:32 · 335 阅读 · 0 评论 -
文献笔记(238)TensorFlow
Tensorflow用数据流图表示计算、shared state和改变状态的操作,map数据流图的结点到集群的多个机器或者同一个机器的多个计算设备如CPU、GPU、ASIC原创 2018-11-11 22:29:56 · 344 阅读 · 0 评论 -
文献阅读(237)Spatial
文章目录1 缩写 & 引用2 abstract & introduction3 language criteria题目:Spatial: A Language and Compiler for Application Accelerators时间:2018会议:PLDI(Proceedings of 39th ACM SIGPLAN Conference on Progra...原创 2019-11-05 23:19:03 · 450 阅读 · 0 评论 -
文献笔记(235)HLS循环优化
文章目录1 缩写 & 引用2 abstract & introduction & previous work3 HLS code transformation for variable-bound loop3.1 loop pipelining and loop unrolling based on the maximum loop bound3.2 partial unr...原创 2019-10-27 10:57:15 · 358 阅读 · 0 评论 -
文献阅读(234)
文章目录1 缩写 & 引用2 abstract & introduction & prior work3 算法和调度的表示3.1 the schedule3.2 the fully specified program4 编译器实现题目:Decoupling Algorithms from Schedules for Easy Optimization of Image ...原创 2019-10-19 10:28:38 · 230 阅读 · 0 评论 -
文献阅读(236)MAESTRO
文章目录1 缩写 & 引用2 abstract & introduction2 背景题目:Understanding Reuse, Performance, and Hardware Cost of DNN Dataflows: A Data-Centric Approach时间:2019会议:MICRO研究机构:佐治亚理工代码:http://maestro.ece.gatech.edu/1 缩写 & 引用MAESTRO: Modeling Accelerator原创 2021-09-07 09:56:25 · 445 阅读 · 0 评论 -
文献阅读(233)nGraph
文章目录1 abstract & introduction2 related work3 intermediate representation & framework bridges题目:Intel nGraph An Intermediate Representation, Compiler, and Executor for Deep Learning时间:2018会...原创 2020-02-14 09:20:58 · 245 阅读 · 0 评论 -
文献阅读(232) Halide Scheduling
文章目录1 缩写 & 引用2 abstract & introduction & prior work3 representing and scheduling program3.1 scheduling for Producer-Consumer Locality3.2 scheduling for input reuse3.3 function bounds analy...原创 2019-10-30 23:03:29 · 608 阅读 · 0 评论 -
文献阅读(231)Halide
文章目录1 缩写 & 引用2 abstract & introduction3 Halide DSL & scheduling image processing pipelines3.1 motivation: scheduling a two-stage pipeline3.2 model for the scheduling choice space题目:Halid...原创 2019-10-30 10:56:03 · 888 阅读 · 0 评论