【FCN实践】01 常见问题

最新推荐文章于 2022-11-22 19:24:30 发布

binlearning

最新推荐文章于 2022-11-22 19:24:30 发布

阅读量1.1k

点赞数 2

分类专栏：语义分割 FCN 文章标签：语义分割 FCN

本文链接：https://blog.csdn.net/binlearning/article/details/72854136

版权

语义分割同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

FCN

4 篇文章 0 订阅

订阅专栏

Fully Convolutional Networks for Semantic Segmentation

——————————————————————————————————————————
【FCN实践】01 常见问题 http://blog.csdn.net/binlearning/article/details/72854136
【FCN实践】02 模型迁移及初始化 http://blog.csdn.net/binlearning/article/details/72854244
【FCN实践】03 训练 http://blog.csdn.net/binlearning/article/details/72854407
【FCN实践】04 预测 http://blog.csdn.net/binlearning/article/details/72854583
【项目源码】https://github.com/binLearning/fcn_voc_32s
——————————————————————————————————————————

Paper：https://arxiv.org/abs/1605.06211
GitHub：https://github.com/shelhamer/fcn.berkeleyvision.org

本系列以voc-fcn32s的训练为例。

FAQ

1.插值层（反向卷积层）是否需要学习？
一开始的版本是将反向卷积层中的卷积核初始化为实现双线性插值，并可学习。但在后续的实验中将这些做双线性插值的核的参数固定，即不可学习。

layer {
  name: "upscore"
  type: "Deconvolution"
  bottom: "score_fr"
  top: "upscore"
  param {
    lr_mult: 0 # 不可学习
  }
  convolution_param {
    num_output: 21
    bias_term: false
    kernel_size: 64
    stride: 32
  }
}

将上采样操作固定为双线性插值相较于之前的可学习参数在性能上并没有多少变化，并且参数固定可以稍微加速训练。注意，每一类输出对应一个插值核，更高维度或者非线性的插值操作可能会得到不同的结果，所以可学习的核可能效果更好。

2.为什么对输入图像进行零值填充（pad）？
对输入图像填充100像素是为了确保网络输出在与输入进行对齐时适用于任意尺寸的输入。对齐操作由网络配置和剪切层（crop layer）自动完成，但是需要计算在剪切时的偏移量（offset）。

pad: 100, 500×500	pad: 1, 500×500	pad: 1, 224×224
data (1, 3, 500, 500)	data (1, 3, 500, 500)	data (1, 3, 224, 224)
conv1_1 (1, 64, 698, 698)	conv1_1 (1, 64, 500, 500)	conv1_1 (1, 64, 224, 224)
conv1_2 (1, 64, 698, 698)	conv1_2 (1, 64, 500, 500)	conv1_2 (1, 64, 224, 224)
pool1 (1, 64, 349, 349)	pool1 (1, 64, 250, 250)	pool1 (1, 64, 112, 112)
conv2_1 (1, 128, 349, 349)	conv2_1 (1, 128, 250, 250)	conv2_1 (1, 128, 112, 112)
conv2_2 (1, 128, 349, 349)	conv2_2 (1, 128, 250, 250)	conv2_2 (1, 128, 112, 112)
pool2 (1, 128, 175, 175)	pool2 (1, 128, 125, 125)	pool2 (1, 128, 56, 56)
conv3_1 (1, 256, 175, 175)	conv3_1 (1, 256, 125, 125)	conv3_1 (1, 256, 56, 56)
conv3_2 (1, 256, 175, 175)	conv3_2 (1, 256, 125, 125)	conv3_2 (1, 256, 56, 56)
conv3_3 (1, 256, 175, 175)	conv3_3 (1, 256, 125, 125)	conv3_3 (1, 256, 56, 56)
pool3 (1, 256, 88, 88)	pool3 (1, 256, 63, 63)	pool3 (1, 256, 28, 28)
conv4_1 (1, 512, 88, 88)	conv4_1 (1, 512, 63, 63)	conv4_1 (1, 512, 28, 28)
conv4_2 (1, 512, 88, 88)	conv4_2 (1, 512, 63, 63)	conv4_2 (1, 512, 28, 28)
conv4_3 (1, 512, 88, 88)	conv4_3 (1, 512, 63, 63)	conv4_3 (1, 512, 28, 28)
pool4 (1, 512, 44, 44)	pool4 (1, 512, 32, 32)	pool4 (1, 512, 14, 14)
conv5_1 (1, 512, 44, 44)	conv5_1 (1, 512, 32, 32)	conv5_1 (1, 512, 14, 14)
conv5_2 (1, 512, 44, 44)	conv5_2 (1, 512, 32, 32)	conv5_2 (1, 512, 14, 14)
conv5_3 (1, 512, 44, 44)	conv5_3 (1, 512, 32, 32)	conv5_3 (1, 512, 14, 14)
pool5 (1, 512, 22, 22)	pool5 (1, 512, 16, 16)	pool5 (1, 512, 7, 7)
fc6 (1, 4096, 16, 16)	fc6 (1, 4096, 10, 10)	fc6 (1, 4096, 1, 1)
fc7 (1, 4096, 16, 16)	fc7 (1, 4096, 10, 10)	fc7 (1, 4096, 1, 1)
score_fr (1, 21, 16, 16)	score_fr (1, 21, 10, 10)	score_fr (1, 21, 1, 1)
upscore (1, 21, 544, 544)	upscore (1, 21, 352, 352)	upscore (1, 21, 64, 64)
score (1, 21, 500, 500)