论文
对于论文的总结和翻译
枸杞饭团
这个作者很懒,什么都没留下…
展开
-
Cambricon-X: An Accelerator for Sparse Neural Networks
摘要神经网络(NNs)已被证明在广泛的应用中很有用,例如图像识别,自动翻译和广告推荐。由于不断增加的深层结构,即具有大量神经元和连接(即突触)的多层结构,因此,最新的NN既需要大量计算又需要大量内存。稀疏神经网络已成为减少所需计算量和内存量的有效解决方案。尽管现有的NN加速器能够有效处理密集且规则的网络,但它们无法从突触权重的降低中受益。在本文中,我们提出了一种新型的加速器Cambricon-X...原创 2020-04-01 22:23:46 · 1141 阅读 · 1 评论 -
CHALLENGES IN PARALLEL GRAPH PROCESSING
摘要图形算法对于解决科学计算,数据挖掘和其他领域的许多问题变得越来越重要。随着这些问题规模的扩大,需要并行计算资源来满足其计算和内存要求。不幸的是,对于开发主流并行科学应用程序运行良好的算法,软件和硬件不一定对大规模图形问题有效。在本文中,我们介绍了当前最先进的图形问题,软件和并行硬件之间的相互关系,并讨论了这些问题如何在解决大规模图形问题时带来固有的挑战。这些挑战的范围为开发可解决图形问题的可...原创 2020-03-20 20:16:12 · 182 阅读 · 0 评论 -
Novel Graph Processor Architecture, Prototype System, and Results
摘要图形算法越来越多地用于利用大型数据库的应用程序中。但是,常规的处理器体系结构不足以处理图形计算的吞吐量和内存需求。林肯实验室的图形处理器体系结构代表了对图形问题的并行体系结构的重新思考。我们的处理器利用了创新技术,包括基于稀疏矩阵的图形指令集,无缓存存储系统,基于加速器的体系结构,收缩分类器,高带宽多维环形通信网络和随机通信。已经开发了新图形处理器的现场可编程门阵列(FPGA)原型,在图形计...原创 2020-03-20 11:51:05 · 232 阅读 · 0 评论 -
GPS: A Graph Processing System
摘要GPS(用于图形处理系统)是我们开发的完整的开源系统,用于在极大的图形上进行可伸缩,容错和易于编程的算法执行。本文起着双重作用,即描述GPS系统,并为分布式图形处理系统(如GPS)中的图形划分提供技术和实验结果。 GPS与Google专有的Pregel系统相似,具有三个新功能:(1)扩展的API,使全局计算更容易表达和更高效;(2)一种动态重分配方案,该方案基于消息传递模式在计算过程中将...原创 2020-03-19 12:27:03 · 523 阅读 · 0 评论 -
Pregel: A System for Large-Scale Graph Processing
摘要许多实际的计算问题都与大型图有关。标准示例包括Web图形和各种社交网络。这些图的规模(在某些情况下为数十亿个顶点,数万亿条边)给它们的有效处理带来了挑战。在本文中,我们提出了适合该任务的计算模型。程序被表示为一系列迭代,在每个迭代中,一个顶点可以接收在先前迭代中发送的消息,将消息发送到其他顶点,并修改其自身的状态以及其输出边或突变图拓扑的状态。这种以顶点为中心的方法足够灵活,可以表达各种算法...原创 2020-03-16 18:13:30 · 228 阅读 · 0 评论 -
GraphGen: An FPGA Framework for Vertex-Centric Graph Computation
摘要以顶点为中心的图形计算已广泛应用于对图形数据结构进行操作的许多机器学习和数据挖掘应用程序中。本文介绍了GraphGen,这是一个以FPGA为中心的顶点为中心的框架,用于图形计算的硬件加速。 GraphGen接受以顶点为中心的图形规范,并将其自动编译到目标FPGA平台的特定于应用程序的综合图形处理器和存储系统上。我们报告了使用GraphGen在Terasic DE4和Xilinx ML605 ...原创 2020-03-15 16:20:49 · 563 阅读 · 0 评论 -
A Framework for FPGA Acceleration of Large Graph Problems: Graphlet Counting Case Study
摘要在许多应用领域中,数据都是使用涉及数百万个顶点和边的大型图形表示的。图分析算法(例如查找短路径和同构子图)在很大程度上受内存延迟的支配。如果可以对图形数据进行分区,则基于大型集群的计算平台可以高效地处理图形,并且可以在较小规模的分区上将图形分配给可重配置设备中的低延迟片上RAM。但是,有许多图类,例如无标度的社交网络,它们缺乏使图数据分区成为延迟问题的有效解决方案的局限性,并且太大而无法容纳...原创 2020-03-14 16:51:40 · 370 阅读 · 0 评论 -
(看不懂 停更)eCNN: A Block-Based and Highly-Parallel CNN Accelerator for Edge Inference
摘要卷积神经网络(CNN)最近已证明在计算成像应用中具有卓越的质量。因此,它们具有极大的潜力来革新相机和显示器上的图像管线。但是,由于传统的CNN加速器具有相当大的DRAM带宽和功耗,因此难以在边缘支持超高分辨率视频。因此,引入进一步的内存和计算效率高的微体系结构对于加快这一即将到来的革命至关重要。在本文中,我们通过考虑推理量低,网络模型,指令集和处理器设计共同优化硬件来实现此目标。性能和图像质...原创 2020-03-12 17:08:46 · 1913 阅读 · 0 评论 -
GraphOps: A Dataflow Library for Graph Analytics Acceleration
摘要图形数据结构的分析和知识提取已经成为人们非常感兴趣的领域。对于频繁执行的算法,专用的硬件加速器是实现高性能的节能途径。不幸的是,在满足严格的上市时间目标的同时,设计和验证它们的工作量很大。在本文中,我们介绍了GraphOps,这是一个模块化的硬件库,可快速轻松地构建用于图形分析算法的节能型加速器。 GraphOps为硬件设计人员提供了一组可组合的特定于图形的构建块,这些构建块的范...原创 2020-03-10 15:26:50 · 405 阅读 · 0 评论 -
A Network-Centric Hardware/Algorithm Co-Design to Accelerate Distributed Training of Deep Neural Net
摘要在不利用分布式系统的情况下,训练现实世界的深度神经网络(DNN)可能需要一个世纪(即数周或数月)。即使是分布式培训也要花费大量时间,其中很大一部分时间都花在了通过网络传达权重和梯度上。最新的分布式培训算法使用工作人员聚合器节点的层次结构。聚合器反复从其分配的工作组中接收梯度更新,然后将更新后的权重发送回去。本文着手通过在网络接口卡(NIC)中嵌入数据压缩加速器来减少这种可观的通信成本。为了最...原创 2020-03-10 21:31:46 · 397 阅读 · 0 评论 -
GraphIA: An In-situ Accelerator for Large-scale Graph Processing
摘要图处理广泛应用于各个领域,而处理大型图则始终受内存限制。原位处理是一种有前途的解决方案,可以克服此类内存密集型应用程序中的“内存墙”挑战。以前的图形处理加速器设计仅关注于在内存中集成更多的计算单元或使用更多的内存层,而不是利用内存库中的巨大并行性。在本文中,我们介绍了GraphIA,这是一种基于DRAM技术的大规模图形处理原位加速器。 GraphIA通过将多个芯片与内部计算电路连接起来,将D...原创 2020-03-07 14:09:41 · 385 阅读 · 0 评论 -
Accelerating Distributed Reinforcement Learning with In-Switch Computing
摘要强化学习(RL)引起了人们的广泛关注,这些应用程序要求具备对环境变化做出智能反应的能力。与分布式深度神经网络(DNN)训练不同,分布式RL训练具有其独特的工作负载特征–它以较小的大小但更频繁的梯度聚合生成数量级更多的迭代。更具体地说,我们对典型RL算法的研究表明,它们的分布式训练对延迟至关重要,并且用于梯度聚合的网络通信占用每次训练迭代执行时间的83.2%。在本文中,我们介绍了iSwitch...原创 2020-03-05 22:58:31 · 535 阅读 · 0 评论