caffe常用网络层及参数说明

通用参数设置

layer {
  name: "net1"
  type: "Data、Scale、Convolution、ReLU、Pooling、Eltwise、InnerProduct、Accuracy、Softmax、Python"
  bottom: "data"
  top: "net1"
  param {
    lr_mult: 1.0
    decay_mult: 1.0
  }
}

name:根据网络总的位置可自定义一个相关的名字。
type:网络层类型。
bottom:前一层的输入。
top:这一层的输出。
param:设置通用参数。
    lr_mult:学习率系数, 最终学习率是lr_mult*solver.prototxt配置文件中的base_lr
    decay_mult 权值衰减 最终权值衰减decay_mult*solver.prototxt的weight_dacay
    所以权值更新 wi = wi -(base_lr * lr_mult) *dwi - (weight_dacay * decay_mult) * wi (dwi是误差关于wi的偏导数)
    如果有两个lr_mult, 则第一个表示权值的学习率,第二个表示偏置项的学习率。
    lr_mult、decay_mult仅在有参数的层出现,比如卷积层、全连接层。

1.data层

网络的输入,维度为NCHW。

name: "SequeezeNet"
input : "data"
input_dim: 1
input_dim: 3
input_dim: 65
input_dim 150
name: "SSD300"
input : "data"
input_shape {
    dim: 1
    dim: 3
    dim: 300
    dim: 300
}

2.Normalize层

layer {
  name: "conv4_3_norm"
  type: "Normalize"
  bottom: "conv4_3"
  top: "conv4_3_norm"
  norm_param {
    across_spatial: false
    scale_filler {
      type: "constant"
      value: 20
    }
    channel_shared: false
  }
}

归一化层主要作用是将空间或者通道内的元素归一化到0到1之间,具体公式可以表示为:


normalize层有两个参数,一个是across_spatial_另一个是channel_shared_。
across_spatial_参数表示是否对整个图片进行归一化,归一化的维度为:1 x c x h x w,否则对每个像素点进行归一化:1 x c x 1 x 1。
channels_shared表示scale是否相同,如果为true,则scale_i都是一样的,否则对于同像素点位置一样,对不同像素点是不一样的。

3.Permute层

layer {
  name: "conv4_3_norm_mbox_loc_perm"
  type: "Permute"
  bottom: "conv4_3_norm_mbox_loc"
  top: "conv4_3_norm_mbox_loc_perm"
  permute_param {
    order: 0
    order: 2
    order: 3
    order: 1
  }
}

     permute是SSD特有的层,功能类似于np.swapaxes,相当于交换caffe_blob中数据的维度。例如,经过conv4_3_norm_mbox_loc_perm层后,caffe里面blob顺序由[batch_size,channels,height,width]变为[batch_size,height,width,channels]。

4.Flatten层

layer {
  name: "conv9_2_mbox_conf_flat"
  type: "Flatten"
  bottom: "conv9_2_mbox_conf_perm"
  top: "conv9_2_mbox_conf_flat"
  flatten_param {
    axis: 1
  }
}

    将多维数据拉成向量:Flatten层是把一个输入的大小为N*C*H*W变成一个简单的向量,其大小为 N*(C*H*W)。当Reshape层的param参数为:{ shape { dim: 0 dim: -1 } } ,那么输出和flatten输出是完全一样的。所以,flatten相当于是reshape的特例。

5.Concat层

layer {
  name: "mbox_priorbox"
  type: "Concat"
  bottom: "conv4_3_norm_mbox_priorbox"
  bottom: "fc7_mbox_priorbox"
  bottom: "conv6_2_mbox_priorbox"
  bottom: "conv7_2_mbox_priorbox"
  bottom: "conv8_2_mbox_priorbox"
  bottom: "conv9_2_mbox_priorbox"
  top: "mbox_priorbox"
  concat_param {
    axis: 2
  }
}

    按指定维度进行拼接,通过axis指定拼接的维度。caffe中数据通常为4个维度,即 NCHW,因此默认值1表示channels通道进行拼接。

6.reshape层

layer {
  name: "mbox_conf_reshape"
  type: "Reshape"
  bottom: "mbox_conf"
  top: "mbox_conf_reshape"
  reshape_param {
    shape {
      dim: 0
      dim: -1
      dim: 2    ####12
    }
  }
}

    只改变输入数据的维度,内容不变。“dim:0”表示维度不变,“dim:2”或“dim:3”表示将原来维度变为2或3,“dim:-1”表示由系统自动根据之前维度推断出当前维度。

7.slice层

layer {
  name: "slicelayer"
  type: "Slice"
  bottom: "labels"
  top: "labels1"
  top: "labels2"
  top: "labels3"
  top: "labels4"
  top: "labels5"
  top: "labels6"
  top: "labels7"
  top: "labels8"
  slice_param {
    axis: 1
    slice_point: 1
    slice_point: 2
    slice_point: 3
    slice_point: 4
    slice_point: 5
    slice_point: 6
    slice_point: 7
  }
}

   slice层,可根据给定的维度将bottom切分成多个top,用于具有多个输入多任务的网络。slice层有三个参数,axis和slice_dim用于指定切分的维度是什么,默认为1,切分channel维度,还有另一个选择就是切分num,类似于Concat层,但是注意这两个参数只能指定一个,常用axis。第三个参数就是指定从哪里开始切分,怎么切分?这个参数就是slice_point。

8、Interp层

layer {
  name: "conv7_2_us"
  type: "Interp"
  bottom: "conv7_2"
  top: "conv7_2_us"
  interp_param {
    height: 38
    width: 38
  }
}
注意可按需求改为interp_param{height:38 width:38}(即固定特征图的尺寸),也可以不需要这个interp_param参数。

 

 

 

 

参考文献:

  1. https://blog.csdn.net/liu1152239/article/details/81478313
  2. https://blog.csdn.net/CSDNhuaong/article/details/83660018
  3. https://blog.csdn.net/qq_31261509/article/details/83650591
  4. https://www.cnblogs.com/wmr95/p/8715607.html
  5. https://www.cnblogs.com/cvtoEyes/p/8623287.html
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
卷积神经网络(CNN)是一种广泛应用于图像识别、语音识别和自然语言处理等领域的神经网络模型。CNN 的核心是卷积层(Convolutional Layer),而池化层(Pooling Layer)则是卷积神经网络中的常用组件之一。池化层的主要作用是减少特征图的尺寸,并提取图像的主要特征,从而降低计算复杂度和模型参数数量,同时提高模型的鲁棒性和泛化能力。本文将对 CNN 中的池化层进行详细介绍,包括池化操作的定义、常用类型、作用原理、实现方式和应用场景等方面。 1. 池化操作的定义 池化操作是指对输入特征图进行采样和压缩,以减小特征图的尺寸和维度,并提取特征信息的过程。池化操作可以通过对输入的每个局部区域进行聚合或统计,得到一个单一的输出值,从而将特征图的大小缩小到原来的一半或更小。 2. 池化操作的常用类型 在 CNN 中,常用的池化操作包括最大池化(Max Pooling)、平均池化(Average Pooling)、L2池化(L2 Pooling)等。其中,最大池化是最常用的一种池化操作,其定义如下: $Max\ Pooling:\ y_{i,j}=\max(x_{(i-1)s+1:i\times s,(j-1)s+1:j\times s})$ 其中,$x$ 表示输入特征图,$y$ 表示输出特征图,$s$ 表示池化操作的步长。具体而言,最大池化操作将输入特征图中每个大小为 $s\times s$ 的不重叠区域视为一个整体,然后在该区域内选择最大的元素作为输出值,从而得到一个更小的特征图。 相比于最大池化,平均池化操作则是对输入区域内的元素进行简单平均,并将结果作为输出值: $Average\ Pooling:\ y_{i,j}=\frac{1}{s^2}\sum_{m=(i-1)s+1}^{i\times s}\sum_{n=(j-1)s+1}^{j\times s}x_{m,n}$ 而 L2 池化则是对输入区域内的元素进行二次平均,并将结果开方作为输出值: $L2\ Pooling:\ y_{i,j}=\sqrt{\frac{1}{s^2}\sum_{m=(i-1)s+1}^{i\times s}\sum_{n=(j-1)s+1}^{j\times s}x_{m,n}^2}$ 3. 池化操作的作用原理 池化层的主要作用是减小特征图的尺寸,并提取图像的主要特征。在 CNN 中,每个卷积层都会生成一组特征图,其中每个特征图都对应一个特定的特征。这些特征图在经过卷积层后,其尺寸通常会减小,但特征信息却会得到增强。 然而,在某些情况下,特征图的尺寸可能会过大,导致模型计算复杂度较高,并且容易出现过拟合的问题。此时,池化层的作用就体现出来了。通过对特征图进行池化操作,可以将其尺寸缩小到原来的一半或更小,从而减少计算量和参数数量,同时还可以提取图像的主要特征。此外,池化操作还可以增强特征的不变性,即使输入图像发生微小变化,所提取的特征也可以保持不变。 4. 池化操作的实现方式 在实际应用中,池化操作通常采用硬件实现或软件实现,具体方式如下: 硬件实现:在硬件实现中,池化操作通常使用专门的硬件加速器进行计算,以提高计算效率和吞吐量。例如,GPU(图形处理器)和FPGA(现场可编程门阵列)等硬件平台都可以用于卷积和池化操作的加速。 软件实现:在软件实现中,池化操作通常使用常规的计算库或框架进行计算,例如 TensorFlow、PyTorch、Caffe 等。这些框架都提供了相应的池化函数,可以方便地实现池化操作。 5. 池化操作的应用场景 池化层是卷积神经网络中的重要组件之一,广泛应用于图像识别、语音识别和自然语言处理等领域。下面介绍几个常见的应用场景: 图像分类:在图像分类任务中,池化层可以帮助模型提取主要的特征,并减小特征图的尺寸。例如,使用最大池化操作可以提取图像中最显著的特征,而使用平均池化则可以对图像中的细节进行平滑处理。 目标检测:在目标检测任务中,池化层可以帮助模型识别目标的位置和大小。例如,使用最大池化操作可以缩小特征图的尺寸,并提取目标的主要特征。然后,基于这些特征可以进一步确定目标的位置和大小。 语音识别:在语音识别任务中,池化层可以帮助模型提取主要的声学特征,并减小输入序列的长度。例如,在语音识别中,池化层可以对输入语音信号进行分帧和压缩,从而提取语音中的主要特征。 自然语言处理:在自然语言处理任务中,池化层可以帮助模型提取文本中的主要特征,并减小输入序列的长度。例如,在文本分类中,池化层可以对输入文本进行分词和压缩,从而提取文本中的主要特征。 综上所述,池化层是卷积神经网络中的重要组件之一,可以帮助模型减小特征图的尺寸,并提取图像、语音和文本等数据中的主要特征。在实际应用中,池化层通常采用最大池化、平均池化、L2池化等操作,可以通过硬件实现或软件实现来完成。池化层的应用场景非常广泛,包括图像分类、目标检测、语音识别和自然语言处理等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值