[置顶] 人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)

2017年人工智能相关会议论文阅读笔记 (已添加ISSCC17,慢慢补充中)...
阅读(1385) 评论(0)

[置顶] 文章索引::”机器学习方法“,"深度学习方法",“三十分钟理解”原创系列

“机器学习/深度学习方法“系列,我本着开放与共享(open and share)的精神撰写,目的是让更多的人了解机器学习的概念,理解其原理,学会应用。现在网上各种技术类文章很多,不乏大牛的精辟见解,但也有很多滥竽充数、误导读者的。这个系列对教课书籍和网络资源进行汇总、理解与整理,力求一击中的,通俗易懂。机器学习很难,是因为她有很扎实的理论基础,复杂的公式推导;机器学习也很简单,是因为对她不甚了解的人...
阅读(5674) 评论(4)

三十分钟理解:双调排序Bitonic Sort,适合并行计算的排序算法

双调排序是data-independent的排序, 即比较顺序与数据无关的排序方法, 特别适合做并行计算,例如用GPU、fpga来计算。...
阅读(230) 评论(0)

分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD

模型并行( **model parallelism** ):分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如,神经网络模型的不同网络层被分配到不同的机器,或者同一层内部的不同参数被分配到不同机器;[14] - 数据并行( **data parallelism** ):不同的机器有同一个模型的多个副本,每个机器分配到不同的数据,然后将所有机器的计算结果按照某种方式合并。...
阅读(1264) 评论(5)

FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA

国内知名的深鉴科技的几位初创写的一篇,拿了**今年FPGA会议的best paper**,今天来看一看到底有些什么内容。文章围绕在FPGA下设计LSTM执行引擎,主要考虑的点是稀疏的计算架构。说实话,稀疏计算已经说的快熟(lan)了,关键还是这样的架构要在牺牲通用性下,得到足够强劲的收益;在一些专用的计算场景下,确实可以做到很好的效果,但也并不是一个免费的午餐。...
阅读(284) 评论(0)

ASPLOS'17论文导读——SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing

今年去参加了ASPLOS 2017大会,这个会议总体来说我感觉偏系统和偏软一点,涉及硬件的相对少一些,对我这个喜欢算法以及硬件架构的菜鸟来说并不算非常契合。中间记录了几篇相对比较有趣的paper,今天简单写一篇。SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing 单位作者: 我...
阅读(426) 评论(0)

深度学习方法(十三):卷积神经网络结构变化——可变形卷积网络deformable convolutional networks

上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks,STN创造性地在CNN结构中装入了一个可学习的仿射变换,目的是增加CNN的旋转、平移、缩放、剪裁性。为什么要做这个很奇怪的结构呢?原因还是因为CNN不够鲁棒,比如把一张图片颠倒一下,可能就不认识了(这里mark一下,提高CNN的泛化能力,值得继续花很大力气,STN是一个思路,读者...
阅读(3635) 评论(0)

深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks

今天具体介绍一个Google DeepMind在15年提出的Spatial Transformer Networks,相当于在传统的一层Convolution中间,装了一个“插件”,可以使得传统的卷积带有了[裁剪]、[平移]、[缩放]、[旋转]等特性;理论上,作者希望可以减少CNN的训练数据量,以及减少做data argument,让CNN自己学会数据的形状变换。这篇论文我相信会启发很多新的改进,也就是对卷积结构作出...
阅读(2028) 评论(0)

三十分钟理解:线性插值,双线性插值Bilinear Interpolation算法

在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值...
阅读(2412) 评论(0)

深度学习方法(十一):卷积神经网络结构变化——Google Inception V1-V4,Xception(depthwise convolution)

欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同学加入。上一篇讲了深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling,本篇讲一讲Google的Inception系列net,以及...
阅读(4899) 评论(2)

深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling

本文先介绍两个13,14年的工作:Maxout Networks,Network In Network。网上有不少资料,但是很多作者我相信自己都没有完全理解,在本文中我会尽可能描述清楚。本文重点在于Network In Network。本文针对论文和网络资料的整理,自己重新撰写,保证每一个初学者都可以看懂。...
阅读(4127) 评论(2)

ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight

A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence单位:Michigan,CubeWorks(密歇根大学,CubeWorks公司)又是一款做DNN加速的面向IOT的专用芯片,主要...
阅读(801) 评论(0)

[重磅]Deep Forest,非神经网络的深度模型,周志华老师最新之作,三十分钟理解!

欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。深度学习最大的贡献,个人认为就是表征学习(representation learning),通过端到端的训练,发现更好的features,而后面用于分类(或其他任务)的输出function,往往也只是普通的softmax(或者其他一些经...
阅读(5033) 评论(1)

三十分钟理解计算图上的微积分:Backpropagation,反向微分

神经网络的训练算法,目前基本上是以Backpropagation (BP) 反向传播为主(加上一些变化),NN的训练是在1986年被提出,但实际上,BP 已经在不同领域中被重复发明了数十次了(参见 Griewank (2010)[1])。更加一般性且与应用场景独立的名称叫做:反向微分 (reverse-mode differentiation)。本文是看了资料[2]中的介绍,写的蛮好,自己记录一下,...
阅读(1529) 评论(0)

ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro

A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector单位:KAIST(韩国科学技术院)——ISSCC上大神级的机构···DNN的加速器,面向不同的应用有着不同的能效需求:0....
阅读(896) 评论(0)

ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm

ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI单位:EAST-MICAS, KU Leuven(鲁汶大学)本文是我觉得本次ISSCC2017 session 14中最好的一篇,给人的启示有很多,比如一款SOC可以...
阅读(807) 评论(0)

ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine

A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications单位:Harvard(哈佛大学)这是一篇专门为DNN加速设计的芯片,在CNN加速芯片设计当道的今天也算是非常另类了~~不过能在ISSC...
阅读(503) 评论(0)

ISSCC 2017论文导读 Session 14 Deep Learning Processors,DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN

DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks单位:KAIST(韩国科学技术院,电子工程-半导体系统实验室)KAIST是ISSCC的常客,一年要在上面发好几篇芯片论文,16年ISSCC上Session 14有一半的paper是出自KAIST的,只能说怎一个牛字了得...
阅读(1077) 评论(0)

ISSCC 2017论文导读 Session 14 Deep Learning Processors,A 2.9TOPS/W Deep Convolutional Neural Network

最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下。A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems单位:STMicroelectronics(意法半导体) 这是一篇很综合...
阅读(1745) 评论(0)

深度学习方法(九):自然语言处理中的Attention Model注意力模型

上一篇博文深度学习方法(八):Encoder-Decoder模型,基本Sequence to Sequence模型描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Encoder-Decoder模型有较大缺点,就是Encoder部分每一个输入对Decoder部分每一个输出的贡献都是一样的。下面先看一个例子[1],输入的是英文句子:Tom chase Jerry,Enco...
阅读(3658) 评论(0)

深度学习方法(八):自然语言处理中的Encoder-Decoder模型,基本Sequence to Sequence模型

Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码...
阅读(3334) 评论(0)
81条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:358922次
    • 积分:3841
    • 等级:
    • 排名:第8356名
    • 原创:62篇
    • 转载:19篇
    • 译文:0篇
    • 评论:86条
    about me
    关注机器学习、深度学习算法、AI专用芯片设计;本博客用于记录业余时间的自学习笔记,欢迎交流讨论。
    email:188997452(at)qq.com
    weibo
    博客专栏
    最新评论