深度学习硬件
文章平均质量分 96
卜居
爱好:玩游戏,发呆
技能:CUDA,C/C++,Caffe/TensorFlow/PyTorch
展开
-
【经典回顾】Nvidia GPU 上的 CNN 计算速度变迁
笔者从 2012 年初开始接触 GPU 编程,2014 年上半年开始接触 Caffe,可以毫不谦虚地说是“一天天看着 Nvidia GPU 和 Caffe 长大的”。Nvidia GPU 架构经历了 Fermi、Kepler、Maxwell、Pascal(都是著名物理学家:特斯拉、费米、开普勒、麦克斯韦、帕斯卡、还未发布的 Volta 伏打……),硬件版本号从 1.x 到现在的 6.x,CUDA ...原创 2017-03-11 23:16:17 · 10375 阅读 · 3 评论 -
Nvidia Pascal GPU 架构详解
本文作于 2016/12/25,作者卜居。写在前面:本文假定读者有一定 CUDA 基础。如果你对 GPU, sm_60/sm_61,CUDA 这些名词感到陌生,可以看我之前写的博客《CUDA 从入门到精通》。 1. 前言Nvidia 在今年的 GTC( GPU Technology Conference ) 上高调宣布了 Pascal 架构——专门针对每瓦性能优化的新架构,采用 16n...原创 2016-12-25 17:44:49 · 41085 阅读 · 7 评论 -
Caffe + CUDNN V5
在今年 GTC 上,NVIDIA 推出的 NVIDIA Deep Learning SDK 中,cuDNN 赫然在列。与之比肩的还有 DIGITS, cuBLAS, cuSPARSE, NCCL 等。从 2014 年推出 第一个版本,到如今 cuDNN 已经连续发布 5 个版本。目前 cuDNN v5 的最新特性有:(1) 支持递归神经网络( LSTM / GRU / RNN );(2) cudn...原创 2016-04-15 18:05:57 · 17587 阅读 · 14 评论 -
使用专用硬件加速深度卷积神经网络
英文论文链接:http://research.microsoft.com/apps/pubs/default.aspx?id=240715翻译:卜居转载请注明出处:http://blog.csdn.net/kkk584520/article/details/47711755【摘要】最近在多层卷积神经网络的突破导致了识别任务(如大量图片分类和自动语音识别)准确率的大幅提升【1】。这些多层神经网络很大...翻译 2015-08-26 07:11:30 · 11405 阅读 · 3 评论 -
优化基于FPGA的深度卷积神经网络的加速器设计
英文论文链接:http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf翻译:卜居转载请注明出处:http://blog.csdn.net/kkk584520/article/details/47450159【0. 摘要】CNN已经广泛用于图像识别,因为它能模仿生物视觉神经的行为获得很高识别准确率。最近,基于深度学习算法的现代应用高速增长进一步...翻译 2015-08-27 08:16:24 · 33787 阅读 · 23 评论