文章由西班牙阿尔拉卡大学电子系Eduardo Romera
等人完成。发表在2017 IEEE Intelligent Vehicles Symposium (IV)
.
论文地址:Efficient ConvNet for Real-time Semantic Segmentation
背景
自动驾驶是极具挑战性的任务,需要在感知任务中采用复杂的解决方案,如识别道路、交通灯、车辆行人等。但是当前的模型结构复杂计算开销较大使之不适合应用于ITS
领域的应用。近年在分类任务上的精度不断增加,但是很难应用于真实应用(模型分复杂度高)。另外,能够满足实时实时分割任务,但是却牺牲了过多的分割精度。作者结合residual network、factorized convolution
提出一种新的网络结构,实现最高的效率和准确性。
模型结构
模型结构整体上仍然遵循Encoder-Decoder
结构,如下图、表所示。作者在设计模型时很大程度上是参考了E-Net
的,包括实验参数等。
详细的构造如下表:
整个模型包含23层,其中1-16层
为Encoder
,17-23层
为Decoder
.
Encoder
编码器部分包含1、2、8层
的下采样过程,以及余下层的Non-bt-1D
提取特征。其中Non-bt-1D、Downsample
构造如下:
本文最大的贡献在于结合
Residual connection
以及Factorized convolution
,将两个3*3
的卷积核分解为两组3*1、1*3
的一维卷积,减少计算量。此外为了控制图像分辨率减少计算开销,采用Downsample
进行下采样。下采样时,不仅仅使用size=2*2、stride=2的Max-pooling
,还额外使用一个filter=3*3,stride=2的卷积核
最后合起来作为降采样输出。作者还声明使用了Dilated convolution
,表中也有标示,但是还没发现是怎么应用的。
在Decoder
中没有使用max-pooling
恢复图像分辨率,而是采用Deconv
操作。
实验
本文采用Cityscapes
做为数据集,包含19个类别标签。作者还交待了相应的实验细节,这里不详表。实验结果如图所使:
最后的mIoU=68%
.更主要的是:
在NAVIDIA TITIAN X
上处理分辨率大小为640x360
可以达到83FPS
,而在嵌入式设备Tegra TX1
上可达7FPS
.
最后,感觉在有些类别上表现很好如Roa、Bui、Sid、Sky
但是其余的class精度很低,不知道有没有人研究这个,拖低整体模型性能的就是这些类别。