轻量级实时语义分割：ENet & ERFNet

最新推荐文章于 2024-08-15 09:27:31 发布

Hecttttttttt

最新推荐文章于 2024-08-15 09:27:31 发布

阅读量2.6k

点赞数 1

分类专栏：视觉文章标签：深度学习语义分割计算机视觉

本文链接：https://blog.csdn.net/Hanghang_/article/details/108428644

版权

轻量级实时语义分割：ENet & ERFNet

ENet
ERFNet
总结

ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation发表在CVPR2016上。
ERFNet: Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation则发表在2018年1月的IEEE Transactions on Intelligent Transportation Systems的期刊。

两者任务均为轻量级实时性语义分割。

ENet

ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

问题
目前已有的几种语义分割网络如SegNet、FCN等，存在参数量大，处理时间长的问题。
之前的方法：
1.在FCN中把全连接层换成了卷积层，但还是无法实时。
2…如使用简单的分类器并使用条件随机场CRF级联它们当成后处理，但该技术很麻烦并且无法label帧中某一类像素较少的类别。
3.将CNN与RNN结合提高精度，也挺耗时。

方法
网络输入与输出分辨率相同：512x512。

左侧图a是输入的初始化步骤。右侧图b是一个改进版的bottleneck模块，原版bottleneck来源于ResNet论文中。
同时作者在所有卷积层中使用了Batch Nomalization和PRelu激活函数。在各个步骤也使用了常规的、空洞、全卷积或不对成卷积（如1x5等），并使用了Dropout随机失活。
在这里插入图片描述

下图为整个网络的结构，前三个stage是encoder，后两个是decoder，其中第二和第三个stage是一样的操作除了第三个阶段一开始没有进行下采样。作者没有在任何投影中使用bias项，这可以减少内核数量以及过多的内存操作。
在这里插入图片描述
设计原因
一、feature map resolution
下采样有两大缺点：

丢失精准边缘等空间信息。
像素级别的语义分割要求输入输出的分辨率一致。

意味着强下采样需要强上采样一起配合，但却很耗时。
第一个解决方法为FCN中在upsampling的feature map 加上 encoder生成的feature map。
在这里插入图片描述
第二个解决方法为：保存在最大池化层中最大元素索引，并使用它们在解码器中生成稀疏的上采样映射。即在下采样使把最大元素与其位置保存起来，上采样时将最大元素填充到原来的位置并在其他位置用零补充。

在这里插入图片描述
作者采用了第二种方法，原因使无需更多的内存。并且发现了强下采样会损害精度，需要限制尽可能它。但下采样的卷积操作也有个好处即有着更大的感受野能够获得更多的context。作者使用了空洞卷积使感受野更大从而使信息更丰富。

二、Early downsampling
作者认为处理分辨率高的输入图片非常耗时，并且视觉信息空间高度冗余，于是先初始化使得分辨率变小（更加有效的表达形式），而且这初始化网络层不应该和分类有着直接贡献，它们应被当成好的特征解析器仅对网络后面的部分进行预处理。

三、Decoder size
本网络包含非对称结构：较大的encoder 和较小的 decoder。encoder是为了为小分辨率数据提供处理和过滤信息。decoder是为了调整细节。

四、Nonlinear operations
使用ReLU会损害精度，故作者采用了PReLU。在每个feature map使用一个额外的参数，以学习非线性的负斜率。

五、Information-preserving dimensionality changes
作者认为，激进的维数下降会阻碍信息流，故选择在stride 2的卷积下并行执行pooling操作，并将得到的feature map连接起来。这项技术能够将对初始块的推断时间缩短10倍。

六、Factorizing filters
研究表明，卷积权值具有相当多的冗余，每个n×n卷积可以依次分解为两个较小的卷积:一个是n×1滤波器，另一个是1×n滤波器。使用两个卷积：1x5和5x1的卷积来代替两次3x3卷及操作，增加通过块学习函数的多样性并增加感受野。

七、Dilated convolutions
具有广泛的接受野是非常重要的，因此它可以通过考虑更广泛的上下文来进行分类。希望避免对特征图的过度采样，并决定使用扩展卷积。主要适用于在最小分辨率操作阶段中几个bottleneck模块中的主要卷积层。依靠空洞卷积没有额外消耗资源地增加了精度，交错式的将空洞卷积运用在bottleneck（常规和非对称