【图像分割论文阅读】Efficient ConvNet for Real-time Semantic Segmentation

最新推荐文章于 2023-06-21 13:46:50 发布

LawenceRay

最新推荐文章于 2023-06-21 13:46:50 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：深度学习论文阅读

本文链接：https://blog.csdn.net/LawenceRay/article/details/91043925

版权

深度学习专栏收录该内容

34 篇文章 1 订阅

订阅专栏

EFNet

文章由西班牙阿尔拉卡大学电子系Eduardo Romera等人完成。发表在2017 IEEE Intelligent Vehicles Symposium (IV).
论文地址:Efficient ConvNet for Real-time Semantic Segmentation

背景

自动驾驶是极具挑战性的任务，需要在感知任务中采用复杂的解决方案，如识别道路、交通灯、车辆行人等。但是当前的模型结构复杂计算开销较大使之不适合应用于ITS领域的应用。近年在分类任务上的精度不断增加，但是很难应用于真实应用（模型分复杂度高）。另外，能够满足实时实时分割任务，但是却牺牲了过多的分割精度。作者结合residual network、factorized convolution提出一种新的网络结构，实现最高的效率和准确性。

模型结构

模型结构整体上仍然遵循Encoder-Decoder结构，如下图、表所示。作者在设计模型时很大程度上是参考了E-Net的，包括实验参数等。
fig1
详细的构造如下表：
table1
整个模型包含23层，其中1-16层为Encoder，17-23层为Decoder.

Encoder

编码器部分包含1、2、8层的下采样过程，以及余下层的Non-bt-1D提取特征。其中Non-bt-1D、Downsample构造如下：
fig2

本文最大的贡献在于结合Residual connection以及Factorized convolution，将两个3*3的卷积核分解为两组3*1、1*3的一维卷积，减少计算量。此外为了控制图像分辨率减少计算开销，采用Downsample进行下采样。下采样时，不仅仅使用size=2*2、stride=2的Max-pooling，还额外使用一个filter=3*3，stride=2的卷积核最后合起来作为降采样输出。作者还声明使用了Dilated convolution，表中也有标示，但是还没发现是怎么应用的。

在Decoder中没有使用max-pooling恢复图像分辨率，而是采用Deconv操作。

实验

本文采用Cityscapes做为数据集，包含19个类别标签。作者还交待了相应的实验细节，这里不详表。实验结果如图所使：
pereclass
最后的mIoU=68%.更主要的是：

tableiv
在NAVIDIA TITIAN X上处理分辨率大小为640x360可以达到83FPS，而在嵌入式设备Tegra TX1上可达7FPS.
最后，感觉在有些类别上表现很好如Roa、Bui、Sid、Sky但是其余的class精度很低，不知道有没有人研究这个，拖低整体模型性能的就是这些类别。