题目:用于密集图像标记的门控反馈优化网络
G-FRNet:门控反馈优化网络
Refinement:细化,优化
所以要解决的问题:模糊信息的前向传递会限制后面的精准识别。
下面给出论文中的示例:如PPT图所示
例如,虽然网络中较深的卷积层可以在牛和马之间提供强大的区分力,但来自较早层的表示可能特定于动物
图:跨层的接收场大小与可能出现的歧义之间关系的图示。在这种情况下,较大的(和更具区分性的)接收场(蓝色)位于网络的较深层,
并且可能对于改进较早层(橙色)所承载的表示形式具有重要意义,以解决歧义并改善标记性能
效果:
在三个具有挑战性的密集标签数据集CamVid, PASCAL VOC 2012, Horse-Cow Parsing马牛
注:CamVid:数据是从驾驶汽车的角度拍摄的,驾驶场景增加了观察目标的数量和异质性
在CamVid和Horse-Cow Parsing取得了最佳, 在PASCAL VOC 2012上效果比较好。
结构:主干是VGG16
我们使用编码器产生的具有不同空间尺寸的特征图(f1,f2,...,f7)来重建一个小的(即粗糙的)标签图P mG。
解码器通过在编码器网络中添加来自特征图的细节来逐步完善标签图。在解码的每个阶段,细化单元(RU1,RU2,...,RU5)通过将来自先前标签图和编码器层的信息作为输入来生成具有较大空间尺寸的新标签图(由连接Gi和RUi的边表示)。
该模型的主要新颖之处在于,来自较早编码器层的信息在转发给解码器之前先经过门单元。
在将每个等级评分图传递到下一阶段的优化模块之前,我们使用标准的2x(两倍)双线性上采样。我们还使用下采样的地面真相标签图在每个解码阶段提供监视(l1,l2,...,l6)
这里门控的设计使用深层的特征来控制浅层的特征,得到处理后的特征送入解码器。
其中Tf表示由上述操作序列组成的变换函数,⊙表示元素乘积。
图3.门细化单元的详细概述。模块由卷积,批量归一化,串联和上采样操作组成。
表1. CamVid数据集上的定量结果。我们报告每个类的IoU(交并比)和每种方法的平均IoU。
我们的方法在该数据集上获得了最新的结果。请注意,对于较小和较细的对象,改进对于我们的模型尤为明显。
图5. CamVid数据集上的定性结果。与FSO相比,G-FRNet能够准确地保留较小和较精细的对象类别(例如,立柱,人行道,自行车和符号符号)的形状。
FSO:Feature space optimization for semantic video segmentation. In CVPR, 2016
用于语义视频分割的特征空间优化。2016年CVPR
表2. PASCAL VOC 2012验证集上不同方法的比较。
[3]Semantic image segmentation with deep convolutional nets and fully connected CRFs. In ICLR, 2015
具有深度卷积网络和完全连接的CRF的语义图像分割。在ICLR中,2015年
[31] Objectness-aware semantic segmentation. In ACMMM, 2016. 6
面向对象的语义分割。在ACMMM中,2016年。6
[22] Learning deconvolution network for semantic segmentation. In ICCV, 2015
学习反卷积网络进行语义分割。在ICCV中,2015年
[4] Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv:1606.00915, 2016
深度卷积网络,无规则卷积和完全连接的crfs的语义图像分割。arXiv:1606.00915,2016