【图像分割论文阅读】Efficient ConvNet for Real-time Semantic Segmentation


EFNet


文章由西班牙阿尔拉卡大学电子系Eduardo Romera等人完成。发表在2017 IEEE Intelligent Vehicles Symposium (IV).
论文地址:Efficient ConvNet for Real-time Semantic Segmentation


背景

自动驾驶是极具挑战性的任务,需要在感知任务中采用复杂的解决方案,如识别道路、交通灯、车辆行人等。但是当前的模型结构复杂计算开销较大使之不适合应用于ITS领域的应用。近年在分类任务上的精度不断增加,但是很难应用于真实应用(模型分复杂度高)。另外,能够满足实时实时分割任务,但是却牺牲了过多的分割精度。作者结合residual network、factorized convolution提出一种新的网络结构,实现最高的效率和准确性。


模型结构

模型结构整体上仍然遵循Encoder-Decoder结构,如下图、表所示。作者在设计模型时很大程度上是参考了E-Net的,包括实验参数等。
fig1
详细的构造如下表:
table1
整个模型包含23层,其中1-16层Encoder17-23层Decoder.

Encoder

编码器部分包含1、2、8层的下采样过程,以及余下层的Non-bt-1D提取特征。其中Non-bt-1D、Downsample构造如下:
fig2

本文最大的贡献在于结合Residual connection以及Factorized convolution,将两个3*3的卷积核分解为两组3*1、1*3的一维卷积,减少计算量。此外为了控制图像分辨率减少计算开销,采用Downsample进行下采样。下采样时,不仅仅使用size=2*2、stride=2的Max-pooling,还额外使用一个filter=3*3,stride=2的卷积核最后合起来作为降采样输出。作者还声明使用了Dilated convolution,表中也有标示,但是还没发现是怎么应用的。

Decoder中没有使用max-pooling恢复图像分辨率,而是采用Deconv操作。


实验

本文采用Cityscapes做为数据集,包含19个类别标签。作者还交待了相应的实验细节,这里不详表。实验结果如图所使:
pereclass
最后的mIoU=68%.更主要的是:

tableiv
NAVIDIA TITIAN X上处理分辨率大小为640x360可以达到83FPS,而在嵌入式设备Tegra TX1上可达7FPS.
最后,感觉在有些类别上表现很好如Roa、Bui、Sid、Sky但是其余的class精度很低,不知道有没有人研究这个,拖低整体模型性能的就是这些类别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值