Caffe的GPU部分学习

最新推荐文章于 2023-08-03 14:49:24 发布

singing1001

最新推荐文章于 2023-08-03 14:49:24 发布

阅读量787

点赞数 2

分类专栏： caffe

本文链接：https://blog.csdn.net/qingsong1001/article/details/82425569

版权

11 篇文章 0 订阅

订阅专栏

Caffe的GPU部分学习

这里需要用到NVIDIA的CUDA的接口，不做详细描述，具体查看NVIDIA的官方说明，只讲解caffe的GPU单卡的基本逻辑。

每个带有weight和bias blob的gpu内存管理初始化在该层的LayerSetUp操作(例如，BaseConvolutionLayer::LayerSetUp)时，通过“new blob”，通过分配blob和对应的SyncedMemory来进行CPU和GPU内存管理。注意：这里并没有分配保存weight和bias 数据的内存，只是把需要的内存信息(即shape)保存了下来。
对于每个layer的top blob通过caffe 网络初始化Net::Init(调用Net::AppendTop)时，通过“new blob”，通过分配blob和对应的SyncedMemory来进行CPU和GPU内存管理。注意：这里并没有分配保存weight和bias 数据的内存，只是把需要的内存信息(即shape)保存了下来。输入layer data层没有bottom blob。
Data layer层的通过调用BasePrefetchingDataLayer的构造函数和LayerSetUp函数，初始化保存训练和测试数据及对应的label数量的batch blob，并通过SyncedMemory::mutable_gpu_data操作，分配了GPU内存，并启动了预取的线程(见InternalThread类操作)。

Data layer层会把top blob的SyncedMemory指针设置为该层从数据集中读取数据的GPU内存地址，见“初始化阶段的data layer的初始化”。
对于其它层的GPU内存分配，以卷积层为例。如果没有进行内存分配的话，bottom和top通过SyncedMemory::mutable_gpu_data操作，分配了GPU内存；weight和bias通过gpu_data操作，分配了GPU内存。

注意：这也是为什么caffe在第一次运行要比之后的运行要慢一些的原因，它在第一次运行时，才真正的分配GPU内存，以后因为内存大小不变，因此，不会进行内存重分配操作。

以卷积层为例，调用conv_im2col_gpu完成img按列展开大的矩阵，调用NVIDIA CUDA的cublasSgemm操作完成矩阵相乘的浮点运算。
原则上所有数据都在GPU上完成计算避免内存拷贝，只把很小部分需要的结果通过特定的接口拷贝到cpu中，例如，在SoftmaxWithLossLayer中利用cublasSasum接口，输出结果传输到cpu内存中。