读论文笔记1_读论文怎么做笔记-CSDN博客

Bridging the Semantic Gaps of GPU Acceleration for Scaleout CNN-based Big Data Processing: Think Big, See Small

1 内容简介

在这篇论文中，作者分析了CNN运行在GPU上时的性能瓶颈，并为CNN建立了性能模型以及解决性能瓶颈的方法。作者提出了D³NN, a Distributed, Decoupled, and Dynamically tuned GPU acceleration framework.

2 实验设置

CNN: AlexNet GoogLeNet VGGNet, 使用Caffe训练
GPU: Tesla k20c
CPU: Intel Xeon E5530
集群: 一个master节点，8个slave节点
信息收集工具: Nvidia Visual Profiler
数据集：ILSVRC2012 (157.3GB)

3 瓶颈分析

3.1 由分布式框架带来的性能瓶颈（对于一个不使用Hadoop 的集群来说，这几个瓶颈还需要重新考虑）

重复的网络初始化过程。hadoop中每个map任务都会初始化神经网络，由于神经网络的初始化过程非常消耗时间和资源。因此初始化过程带来了巨大的资源浪费。
在hadoop中调用GPU也会带来overhead。调用过程为task-tracker通过heart-beat向jobtracker发送请求。jobtracker根据心跳信息给task-tracker分配任务。task-tracker生成一个子JVM运行map任务。最后map任务通过JNI调用cuda程序。
hadoop负载均衡。当运行多媒体任务时，节点间的差异性使得集群的性能降低。主要是因为hadoop会将数据从低性能的节点转移到高性能的节点，在转移的过程中，用到该数据的任务会处于阻塞状态，直到数据准备好之后才开始执行。

3.2 单个节点中的性能瓶颈

GPU时间低效性。通过实验发现，GPU计算时间占了整个任务执行时间的20%不到。大部分时间都消耗在了网络初始化（从内存中载入参数）和CPU计算（图片预处理）。因此在单个节点上CNN程序的执行时间可以表示为 $T_{standalone}=T_{cpu}+T_{memcpy}+T_{gpu} \tag{Eq3}$ 在公式 $E q 3$ 中，非GPU相关的时间占了多数，因此有很大一部分时间GPU处于空闲状态。
多进程资源竞争。Nvidia提供了Multi-Process Service，该功能允许多个kernel并行执行。然而通过实验发现该功能对于CNN程序来说并不是最好的选择。首先，CNN程序是访存密集型的，多个kernel同时运行会造成内存资源竞争（这个不一定，要看实验结果，大多数情况都是这样）。
GPU函数库低效性。首先量化卷积层的性能，定义吞吐率效率 $t p E$ 为 $tpE=\frac{Throughput}{GPU\ Peak\ Throughput}$ 进一步转化成 $tpE=\frac{Conv_{flops}}{GPU\ time\times GPU\ Peak\ Throughput}$ 下图展示了3个神经网络的 $t p E$ 值
上图表明了现有的GPU计算操作对CNN是比较低效的。同时论文中指出，对每一层使用相同的batch size不能达到一个良好的效果。

4 D³NN介绍

D³NN包含四个特性，根绝CNN每层输入数据的大小动态选择最优batch size，针对单节点的CNN性能分析模型，分布式的数据处理框架，减少资源竞争的方案。

4.1 Batch size 动态调节方案

该方案主要是用来回答两个问题，1. 什么时候需要应该batch调节方法；2. 如何选择最优的batch size。作者用 $c p R a t i o$ 表示每层网路需要的资源与可用的资源的比值(详细解释见作者论文)。 $cpRatio=\frac{GridSize}{maxBlocks}$ 如果 $c p R a t i o > 1$ 表示GPU可用的资源都能被CNN消耗，因此不需要调用调节方法。根据实验观察到当 $G r i d S z i e$ 是 $m a x B l o c k s$ 的整数倍时，CNN的性能最好。