【图像分割论文阅读】Efficient ConvNet for Real-time Semantic Segmentation


EFNet


文章由西班牙阿尔拉卡大学电子系Eduardo Romera等人完成。发表在2017 IEEE Intelligent Vehicles Symposium (IV).
论文地址:Efficient ConvNet for Real-time Semantic Segmentation


背景

自动驾驶是极具挑战性的任务,需要在感知任务中采用复杂的解决方案,如识别道路、交通灯、车辆行人等。但是当前的模型结构复杂计算开销较大使之不适合应用于ITS领域的应用。近年在分类任务上的精度不断增加,但是很难应用于真实应用(模型分复杂度高)。另外,能够满足实时实时分割任务,但是却牺牲了过多的分割精度。作者结合residual network、factorized convolution提出一种新的网络结构,实现最高的效率和准确性。


模型结构

模型结构整体上仍然遵循Encoder-Decoder结构,如下图、表所示。作者在设计模型时很大程度上是参考了E-Net的,包括实验参数等。
fig1
详细的构造如下表:
table1
整个模型包含23层,其中1-16层Encoder17-23层Decoder.

Encoder

编码器部分包含1、2、8层的下采样过程,以及余下层的Non-bt-1D提取特征。其中Non-bt-1D、Downsample构造如下:
fig2

本文最大的贡献在于结合Residual connection以及Factorized convolution,将两个3*3的卷积核分解为两组3*1、1*3的一维卷积,减少计算量。此外为了控制图像分辨率减少计算开销,采用Downsample进行下采样。下采样时,不仅仅使用size=2*2、stride=2的Max-pooling,还额外使用一个filter=3*3,stride=2的卷积核最后合起来作为降采样输出。作者还声明使用了Dilated convolution,表中也有标示,但是还没发现是怎么应用的。

Decoder中没有使用max-pooling恢复图像分辨率,而是采用Deconv操作。


实验

本文采用Cityscapes做为数据集,包含19个类别标签。作者还交待了相应的实验细节,这里不详表。实验结果如图所使:
pereclass
最后的mIoU=68%.更主要的是:

tableiv
NAVIDIA TITIAN X上处理分辨率大小为640x360可以达到83FPS,而在嵌入式设备Tegra TX1上可达7FPS.
最后,感觉在有些类别上表现很好如Roa、Bui、Sid、Sky但是其余的class精度很低,不知道有没有人研究这个,拖低整体模型性能的就是这些类别。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
标签高效的语义分割是指使用扩散模型进行语义分割的方法。语义分割是计算机视觉中的一项重要任务,目标是将图像中的每个像素标记为属于特定类别。传统的语义分割方法通常需要大量的标注数据进行训练,这对于很多场景来说是不可行的,因为标注数据的获取十分耗时和费力。因此,提出了一种使用扩散模型的标签高效语义分割方法。 扩散模型基于自监督学习的思想,通过利用图像自身的结构信息进行训练。具体而言,该方法首先将图像划分为一组超像素或紧密区域,然后根据这些区域的颜色、纹理或形状等特征来推断像素的标签。通过这种方式,可以大大减少对标注数据的依赖。 该方法的关键步骤是利用扩散模型对像素进行标签推断。扩散模型是一种基于概率传播的图像分割方法,它通过计算每个像素与其周围像素之间的相似度来推断像素的标签。这样一来,即使只有部分像素有标注,也可以利用它们与周围像素的相似性来推断未标注像素的标签,从而实现标签高效的语义分割。 与传统的语义分割方法相比,标签高效的语义分割方法在保持较高准确率的同时,显著减少了对标注数据的需求。这对于那些无法获得大量标注数据的场景来说,具有重要的实际意义。因此,标签高效的语义分割方法在计算机视觉和图像处理领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值