Caffe中的Blob数据结构

最新推荐文章于 2021-03-22 21:52:54 发布

liuxiangxxl

最新推荐文章于 2021-03-22 21:52:54 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/liuxiangxxl/article/details/86606759

版权

深度学习专栏收录该内容

36 篇文章 0 订阅

订阅专栏

Blob是caffe最基础的数据结构。它有4维[num_,channels_,height_,width_]

我们通过代码来看看

#include <vector>
#include <iostream>
#include <caffe/blob.hpp>
using namespace caffe;
using namespace std;

int main(void){
//声明一个Blob变量
Blob<float> a;
//打印形状，是0现在
cout<<"Size:"<<a.shape_string()<<endl;
//reshape成1,2,3,4
a.Reshape(1,2,3,4);
cout<<"Size:"<<a.shape_string()<<endl;
//创建Blob对象之后，可以通过mutable_cpu_data函数改变其值
float *p = a.mutable_cpu_data();
for (int i = 0; i < a.count(); ++i)
{
p[i]= i;
}

// int u = a.num();
for(int u = 0; u<a.num(); u++){
for(int v = 0; v < a.channels(); v++){
for(int w=0; w<a.height(); w++){
for(int x=0; x<a.width(); x++){
cout<<"a["<<u<<"]["<<v<<"]["<<w<<"]["<<x<<"]="<<a.data_at(u,v,w,x)<<endl;
}
}
}
}

return 0;
}

Caffe使用Blob结构在CNN网络中存储、传递数据。对于批量2D图像数据，Blob的维度为

图像数量N × 通道数C × 图像高度H × 图像宽度W

显然，在此种场景下，Blob使用4维坐标定位数据，如（n, c, h, w），其中n为图像序号（0到N-1），c为通道序号（0到C-1）,h为图像行序（0到H-1），w为图像列序（0到W-1）。那么我们如何根据这个坐标找到对应的数据呢？要想得到这个问题的答案，就得弄清楚Blob在内存中的数据组织形式，也就是这批量的2D图像在内存中是如何存储的。其实它的存储方式很简单，见下图：

图像数据依序存储，单张图像数据按通道序依次存储，组织形式简单明了。上图给了三张图像的存储例子，每张图像的通道数C为3，H为8，W为16。坐标（2, 1, 3, 9），代表这是第3张图像、第2个通道、第4行、第10列的像素值，实际存储位置为：

（（（2 × C） + 1） × H + 3） × W + 9 = （（（2 × 3） + 1） × 8 + 3） × 16 + 9 = 953

通俗地讲，在内存中，第一张图像的第0个像素值存储在内存的第0个位置，Blob按照从左到右，从上到下的顺序，逐列、逐行、逐通道、逐张图像，将每个像素值存入内存：

b. blob中数据的dimentions为Num N*channel K * Height H * Width W.内存是行优先的(row-major)。访问数据的时候按照如下的规则来访问index(n,k,h,w) 在物理上位于index((n*K + k) *H + h)*W + w. 这里要注意，index(n,k,h,w)实际上访问的是内存中(n+1,k+1,h+1,w+1)位置的数据，这是因为索引是从0开始的。

也就是说Blob的组织格式并无特别之处，顺序存储而已。坐标位置（n, c, h, w）与具体内存读取位置M的换算公式如下：

M = （（（n × C） + c） × H + h） × W + w

图像数据格式定义了一批图片数据的存储顺序。在调用 TensorFlow API 时会经常看到 data_format 参数：

data_format 默认值为 "NHWC"，也可以手动设置为 "NCHW"。这个参数规定了 input Tensor 和 output Tensor 的排列方式。

data_format 设置为 "NHWC" 时，排列顺序为 [batch, height, width, channels]；

设置为 "NCHW" 时，排列顺序为 [batch, channels, height, width]。

其中 N 表示这批图像有几张，H 表示图像在竖直方向有多少像素，W 表示水平方向像素数，C 表示通道数（例如黑白图像的通道数 C = 1，而 RGB 彩色图像的通道数 C = 3）。为了便于演示，我们后面作图均使用 RGB 三通道图像。

两种格式的区别如下图所示：

NCHW 中，C 排列在外层，每个通道内像素紧挨在一起，即 'RRRRRRGGGGGGBBBBBB' 这种形式。

NHWC 格式，C 排列在最内层，多个通道对应空间位置的像素紧挨在一起，即 'RGBRGBRGBRGBRGBRGB' 这种形式。

如果我们需要对图像做彩色转灰度计算，NCHW 计算过程如下：

即 R 通道所有像素值乘以 0.299，G 通道所有像素值乘以 0.587，B 通道所有像素值乘以 0.114，最后将三个通道结果相加得到灰度值。

相应地，NHWC 数据格式的彩色转灰度计算过程如下：

输入数据分成多个(R, G, B) 像素组，每个像素组中 R 通道像素值乘以 0.299，G 通道像素值乘以 0.587，B 通道像素值乘以 0.114 后相加得到一个灰度输出像素。将多组结果拼接起来得到所有灰度输出像素。

以上使用两种数据格式进行 RGB -> 灰度计算的复杂度是相同的，区别在于访存特性。通过两张图对比可以发现，NHWC 的访存局部性更好（每三个输入像素即可得到一个输出像素），NCHW 则必须等所有通道输入准备好才能得到最终输出结果，需要占用较大的临时空间。

在 CNN 中常常见到 1x1 卷积（例如：用于移动和嵌入式视觉应用的 MobileNets），也是每个输入 channel 乘一个权值，然后将所有 channel 结果累加得到一个输出 channel。如果使用 NHWC 数据格式，可以将卷积计算简化为矩阵乘计算，即 1x1 卷积核实现了每个输入像素组到每个输出像素组的线性变换。

TensorFlow 为什么选择 NHWC 格式作为默认格式？因为早期开发都是基于 CPU，使用 NHWC 比 NCHW 稍快一些（不难理解，NHWC 局部性更好，cache 利用率高）。

NCHW 则是 Nvidia cuDNN 默认格式，使用 GPU 加速时用 NCHW 格式速度会更快（也有个别情况例外）。

最佳实践：设计网络时充分考虑两种格式，最好能灵活切换，在 GPU 上训练时使用 NCHW 格式，在 CPU 上做预测时使用 NHWC 格式。
---------------------
作者：weixin_33712881
来源：CSDN
原文：https://blog.csdn.net/weixin_33712881/article/details/86905314
版权声明：本文为博主原创文章，转载请附上博文链接！

liuxiangxxl

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Caffe中的Blob数据结构

Blob是caffe最基础的数据结构。它有4维[num_,channels_,height_,width_]我们通过代码来看看#include &lt;vector&gt;#include &lt;iostream&gt;#include &lt;caffe/blob.hpp&gt;using namespace caffe;using namespace std;int ma...
复制链接

扫一扫

专栏目录