【caffe学习笔记】vision layer 特征表达层

最新推荐文章于 2019-12-18 16:30:13 发布

Wonder233

最新推荐文章于 2019-12-18 16:30:13 发布

阅读量1k

点赞数 1

分类专栏： caffe 文章标签： caffe

本文链接：https://blog.csdn.net/Wonder233/article/details/58585802

版权

caffe 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

vision layer 特征表达层

Header: ./include/caffe/vision_layers.hpp

特征表达层通常将图像作为输入，并产生其他图像作为输出。

vision_layer 主要是图像卷积的操作，像convolusion、pooling、LRN都在里面。

典型“image”可以是灰度图像中的一个颜色通道(c = 1)或者如在RGB(红色，绿色，蓝色)中的三个颜色通道(c = 3 )。

但在caffe中，图像是一个广义的概念，区别特征是其空间结构：通常图像的h>1，w>1，高和宽通常均大于 1而通道数不限，类似结构的数据均可理解为图像。

大多数视觉层通常是在输入数据的某块区域执行特定操作来产生对应的输出。相比之下，其他层（有少数例外）忽略输入的空间结构，而是把输入图像当作是维度为chw的“一个大向量”

卷积层

CPU implementation: ./src/caffe/layers/convolution_layer.cpp

CUDA GPU implementation: ./src/caffe/layers/convolution_layer.cu

参数

Required（必须的参数）

num_output (c_o): 指定卷积核的数量
kernel_size (or kernel_h and kernel_w):指定每个卷积核的高度和宽度

Strongly Recommended（强力推荐）

weight_filler [default type: 'constant' value: 0]:参数的初始化方法

Optional（可选的）

bias_term [default true]: 指定是否学习并将一组加性偏差应用于滤波器输出指定是否给卷积输出添加偏置项

pad (or pad_h and pad_w) [default 0]: 指定在输入的每一边加上多少个像素指定在输入图像周围补 0 的像素个数
stride (or stride_h and stride_w) [default 1]: 指定过滤器的步长指定卷积核在输入图像上滑动的步长

group (g) [default 1]: （指定分组卷积操作的组数，默认为 1 即不分组）If g > 1, 我们可以将卷积核的连接限制为输入数据的一个子集。具体地说, 输入图像和输出图像在通道维度上分别被分成 g 个组, 输出图像的第 i 组只与输入图像第 i 组连接（即输入图像的第 i 组与相应的卷积核卷积得到第 i组输出）。

输入

n * c_i * h_i * w_i

输出

n * c_o * h_o * w_o, where h_o = (h_i + 2 * pad_h - kernel_h) / stride_h + 1 and w_o likewise.

例子（ ./models/bvlc_reference_caffenet/train_val.prototxt ）

layer {
name: "conv1"
type: "Convolution"
bottom: "data"

top: "conv1"

# 卷积核的局部学习率和权值衰减因子

param { lr_mult: 1 decay_mult: 1 }

# 偏置项的局部学习率和权值衰减因子

param { lr_mult: 2 decay_mult: 0 }
convolution_param {

num_output: 96 # 学习 96 组卷积核

kernel_size: 11 # 卷积核大小为 11x11

stride: 4 # 卷积核滑动步长为 4

weight_filler {

type: "gaussian" # 使用高斯分布随机初始化卷积核

std: 0.01 # 高斯分布的标准差为 0.01 (默认均值： 0)

}
bias_filler {

type: "constant" # 使用常数 0 初始化偏置项 0

value: 0
}
}

}

卷积层使用一系列可训练的卷积核对输入图像进行卷积操作，每组卷积核生成输出图像中的一个特征图。

池化层

CPU implementation: ./src/caffe/layers/pooling_layer.cpp

CUDA GPU implementation: ./src/caffe/layers/pooling_layer.cu

参数

Required（必须的参数）

kernel_size (or kernel_h and kernel_w):指定池化窗口的高度和宽度

Optional（可选的）

pool [default MAX]: 池化方法。目前有 MAX AVE STOCHASTIC 三种方法（最大值池化, 均值池化,和随机池化）

pad (or pad_h and pad_w) [default 0]: 指定在输入的每一边加上多少个像素指定在输入图像周围补 0 的像素个数
stride (or stride_h and stride_w) [default 1]: 指定过滤器的步长指定池化窗口在输入数据上滑动的步长

输入

n * c * h_i * w_i

输出

n * c * h_o * w_o, whereh_o and w_o are computed in the same way as convolution.

例子（ ./models/bvlc_reference_caffenet/train_val.prototxt ）

       layer { 
      
   name: "pool1" 
      
   type: "Pooling" 
      
   bottom: "conv1" 
      
   top: "pool1" 
      
   pooling_param { 
     
           pool: MAX 
     
           kernel_size: 3 # 池化窗口大小为 3x3 
     
           stride: 2      # 池化窗口在输入图像上滑动的步长为 2 
     
         } 
      
 }