
异构加速/高性能计算
大饼博士X
关注机器学习/深度学习算法与硬件加速
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenCL与CUDA,CPU与GPU
OpenCLOpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科转载 2015-05-12 22:53:03 · 8429 阅读 · 0 评论 -
FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA
国内知名的深鉴科技的几位初创写的一篇,拿了**今年FPGA会议的best paper**,今天来看一看到底有些什么内容。文章围绕在FPGA下设计LSTM执行引擎,主要考虑的点是稀疏的计算架构。说实话,稀疏计算已经说的快熟(lan)了,关键还是这样的架构要在牺牲通用性下,得到足够强劲的收益;在一些专用的计算场景下,确实可以做到很好的效果,但也并不是一个免费的午餐。原创 2017-07-02 20:45:16 · 5767 阅读 · 0 评论 -
ASPLOS'17论文导读——SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing
今年去参加了ASPLOS 2017大会,这个会议总体来说我感觉偏系统和偏软一点,涉及硬件的相对少一些,对我这个喜欢算法以及硬件架构的菜鸟来说并不算非常契合。中间记录了几篇相对比较有趣的paper,今天简单写一篇。SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing 单位作者: 我原创 2017-05-30 22:35:16 · 4850 阅读 · 1 评论 -
ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight
A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence单位:Michigan,CubeWorks(密歇根大学,CubeWorks公司)又是一款做DNN加速的面向IOT的专用芯片,主要原创 2017-03-08 23:03:27 · 3381 阅读 · 0 评论 -
ISSCC 2017论文导读 Session 14 Deep Learning Processors,A 2.9TOPS/W Deep Convolutional Neural Network
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下。A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems单位:STMicroelectronics(意法半导体) 这是一篇很综合原创 2017-02-12 03:29:22 · 5461 阅读 · 0 评论 -
ISSCC 2017论文导读 Session 14 Deep Learning Processors,DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN
DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks单位:KAIST(韩国科学技术院,电子工程-半导体系统实验室)KAIST是ISSCC的常客,一年要在上面发好几篇芯片论文,16年ISSCC上Session 14有一半的paper是出自KAIST的,只能说怎一个牛字了得原创 2017-02-12 23:42:54 · 5087 阅读 · 1 评论 -
ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine
A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications单位:Harvard(哈佛大学)这是一篇专门为DNN加速设计的芯片,在CNN加速芯片设计当道的今天也算是非常另类了~~不过能在ISSC原创 2017-02-15 00:02:43 · 2023 阅读 · 0 评论 -
ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro
A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector单位:KAIST(韩国科学技术院)——ISSCC上大神级的机构···DNN的加速器,面向不同的应用有着不同的能效需求:0.原创 2017-02-19 23:53:58 · 2783 阅读 · 0 评论 -
ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm
ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI单位:EAST-MICAS, KU Leuven(鲁汶大学)本文是我觉得本次ISSCC2017 session 14中最好的一篇,给人的启示有很多,比如一款SOC可以原创 2017-02-18 21:48:42 · 3969 阅读 · 1 评论 -
OpenCL学习笔记(三):OpenCL安装,编程简介与helloworld
从图中可以看出(参考《OpenCL 编程入门》):1. 异构计算设备,可以是CPU或GPU。现在也有支持OpenCL的FPGA设备和至强融核协处理设备(MIC)。2. OpenCL的API通过Context(环境上下文)联系在一起。3. 运行设备端的程序,经过了编译->设置参数->运行等步骤。原创 2015-06-14 23:37:27 · 24654 阅读 · 3 评论 -
OpenCL学习笔记(二):并行编程概念理解
一般来说,并行编程有两种大类型——分散收集(scatter-gather)与分而治之(divide-and-conquer)。分散收集(scatter-gather):数据被分为子集,发送到不同的并行资源中,然后对结果进行组合,也就是数据并行;分而治之(divide-and-conquer):问题被分为子问题,在并行资源中运行,也就是任务并行。原创 2015-05-24 21:32:10 · 10034 阅读 · 0 评论 -
OpenCL学习笔记(一):摩尔定律,异构计算与OpenCL初印象
OpenCL (Open Computing Language,开放计算语言) 是一个为异构平台编写程序的框架,此异构平台可由CPU,GPU或其他类型的处理器组成。OpenCL提供了基于任务分割和数据分割的并行计算机制。OpenCL 应用程序含有两部分(host和kernel)。OpenCL 主程序是纯软件例程,以标准C/C++编写,可以运行在任何类型的微处理器上。例如,这类处理器可以是FPGA中的嵌入式软核处理器、硬核ARM处理器或者外置x86处理器。如图所示。在这一主软件例程执行期间的某一点,某一功能原创 2015-05-16 21:31:29 · 5868 阅读 · 1 评论