【论文笔记】ITS17 ERFNet: Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation

本文链接：https://blog.csdn.net/phdsky/article/details/103674180

文章目录

Block - Factorized Residual Layers
Miscellaneous
- 相关工作

Block - Factorized Residual Layers

结构特征

网络结构的关键点：A novel layer that uses residual connections and factorized convolutions

跳跃连接：使用ResNet网络结构，让网络学习残差函数来加速训练

分解卷积：通过将2D卷积操作等效分解为多个1D卷积操作，在获得与2D相似准确率的情况下大幅减少了参数量

ERFNet网络架构就是基于Non-bottlenect block结构的顺序堆叠型网络，不包含多级特征图融合或block间的长距离范围跳跃连接。

关于跳跃连接作者分析了文章[6]中的ResNet block，包含Non-bottleneck和Bottleneck两种；作者提到两种版本实际上具有相似的参数量（作者是基于feature map降低4倍的情况下对比的，很明显bottleneck大幅降低了参数量），并且准确率也差不多；但是bottleneck需要更少的计算资源，并且当网络深度增加时计算量的增长不大。

从[6] [7] [12]作者说非bottleneck结构相对于bottlneck结构可以从深度获得更高的准确率，意思是bottlneck结构仍然存在梯度弥散的问题。

卷积分解理论作者引用了[22]，列出了任意2D滤波器可以由若干个1D滤波器组合的数学公式；作者主要对Non-bottleneck进行了改造，ERFNet架构中使用的也是Non-bottlenect-1D block；

宽度扩展

作者说从滤波器和特征图的计算量可以得出Non-bottleneck-1D直接增加了网络结构的width，后面也有篇幅提到了这个block带来的是wider layer的效果。

这里没有太理解他说的本意是什么，大概意思可能是这个block降低了计算量；如果从相同计算量角度，那么这个block可以获取更wider的信息？

参数分析

文中提了三种Block结构，实际上对应的应该还有一种：对Bottleneck的1D分解；这个网络在文中有提到且分析了一下参数量，但是没有继续往下做实验（这个结构在ENet中使用了，表示为asymmetric conv）；
blocks

四种block在相应feature map下的参数量：
params

上表计算的参数量应该是不带bias的数值，针对单个block参数量分析可以参考：http://cs231n.github.io/convolutional-networks/#conv，根据表中给定的 $w_0 = 64$ ，参数量数值计算如下：

Residual Block	without bias	with bias
bottleneck	1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632	(1x1x256+1)x64 + (3x3x64+1)x64 + (1x1x64+1)x256 = 70016
non-bottleneck	3x3x64x64x2 = 73728	(3x3x64+1)x64x2 = 73856
bottleneck-1D	1x1x256x64 + 3x1x64x64x2 + 1x1x64x256 = 57344	(1x1x256+1)x64 + (3x1x64+1)x64x2 + (1x1x64+1)x256 = 57792
non-bottleneck-1D	3x1x64x64x4 = 49152	(3x1x64+1)x64x4 = 49408