代码地址:ICNet
1. 概述
导读:这篇文章主要研究的是实时场景下的分割任务,现有的方法对于像素级分割是很难在较大比例上减少运算的计算量的。这篇文章对此提供了解决办法,提出了图像级联网络(Image cascade network,ICNet)去解决该问题,这里将输入图像按照尺寸划分为三个支路的输入,分辨率最小的支路的输出开始不断细化分割的结果,引入特征级联混合单元与cascade label guidance strategy快速实现分割,在Cityscapes、CamVideo与COCO-Stuff数据集上实现了单GPU实时分割。
文章中将文章提出的实时分割算法与现有的分割网络进行对比,得出的结果见下图,ICNet在速度与准确度上取得了较好的折中,达到了实时的需求,并且 I o U > 70 IoU\gt70 IoU>70。
这篇文章提出的网络结构ICNet,该模型兼顾了低分辨下分割的效率与高分辨率下分割的质量。思想:首先让低分辨的图像经过语义分割网络产生粗糙的分割结果;之后特征级联混合单元(cascade label guidance)与标签引导的级联策略(cascade label guidance strategy)将中分辨率和高分辨率的特征整合,逐步地优化之前生成的粗糙分割结果。
文章的主要贡献归纳如下:
- 1)提出了新的单输入图像级联网络用于图像分割,它使用低分辨率的语义信息与高分辨的细节;
- 2)使用特征级联混合单元与级联标签引导,在较低计算开销的情况下优化了结果;
- 3)ICNet在推断速度上提升了5倍,所需要的内存开销也缩小了5倍,在分辨率为 1024 ∗ 2048 1024*2048 1024∗2048的分辨率下也能实现帧率为30FPS的分割;
2. 网络结构设计
2.1 影响分割速度的原因分析
这里使用 Φ \Phi Φ来表示卷积操作,输入为 V ∈ R c ∗ h ∗ w V\in R^{c*h*w} V∈Rc∗h∗w,输出为 U ∈ R c ′ ∗ h ′ ∗ w ′ U\in R^{c^{'}*h^{'}*w^{'}} U∈Rc′∗h′∗w