ss_thbcr-CSDN博客

原创 CUDA基本概念

CUDA线程结构的三个重要概念：Grid，Block，Thread，三者关系如图：Block和Thread的结构可以是一维，二维或者三维，以下Block,Thread结构分别是二维和三维。下表是不同计算能力的GPU的技术指标：每个thread有一份register和local memory空间；同一block共享一份share memory；同一grid的所

2018-01-10 11:00:41 339

原创深度网络推理加速（Learning both Weights and Connections for Efficient Neural Networks）

摘要针对卷积神经网络的结构在训练之前就已经被固定下来，因而训练过程无法优化网络结构，本文提出了一种三步法在保留网络能力的前提下进行剪枝。首先，让网络在训练中学习到哪些连接是重要的；其次，对不重要的连接进行剪枝；最后，在剪枝后的网路欧上进行微调。用该方法对ImageNet数据的AlexNet和VGG-16网络进行优化，分别将模型减小了十倍左右，而没有损失精度。下图是在45nm工艺的CMOS芯

2018-01-09 14:11:04 794

原创深度网络推理加速（Towards Lightweight Convolutional Neural Networks for Object Detection）

摘要：本文研究目标是少类别实时目标检测，研究了在保留较高检测率的前提下最大程度的减小模型大小，最终实现了在CPU上的实时检测。本文的推理加速机制和量化压缩等方法是可以并行的。1，通过增大feature map的尺寸，减小通道数可以得到准确率且快的检测模型，这么做的依据是对于实际的很少类别的目标检测问题，用于解决多类别分类问题的网络中很多通道是冗余的。2，通过在大的预训练模型上简单的

2018-01-09 13:56:31 2862

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 CUDA基本概念

原创 深度网络推理加速（Learning both Weights and Connections for Efficient Neural Networks）

原创 深度网络推理加速（Towards Lightweight Convolutional Neural Networks for Object Detection）

空空如也

空空如也

原创深度网络推理加速（Learning both Weights and Connections for Efficient Neural Networks）

原创深度网络推理加速（Towards Lightweight Convolutional Neural Networks for Object Detection）