在图像语义分割任务中,学习到有足够判别力度的全局特征十分重要。现有大部分方法要么采用堆叠多层局部卷积层,要么使用非局部的block来获取远距离特征之间的语境。然而,由于这些方法都缺乏对空间结构信息的有效保留,在增大感受野的同时忽略了物体结构的具体信息。因此,在本文中,旷视研究院团队提出了一个可学习的树状滤波器,它能够在建模远距离语境关系时依然保留细节信息。
进一步,团队还提出了一个极大降低计算复杂度,能够在线性时间内执行运算的算法,保证了该滤波器模组能够方便地嵌入现有深度神经网络进行应用。最后团队提出了一个基于此树状滤波器模组的语义分割网络。在多个数据集上的实验结果显示,本文提出的方法达到了当前最佳性能。另外,本文已被NeurlPS 2019大会收录,代码与模型已经开源。
论文名称:Learnable Tree Filter for Structure-preserving Feature Transform
论文链接:https://arxiv.org/abs/1909.12513
开源链接:https://github.com/StevenGrove/TreeFilter-Torch
目录
导语
简介
方法
-
技术细节
高效计算设计
语义分割网络架构
实验
-
在Cityscapes上的实验
在PASCAL VOC上的实验
结论
参考文献
导语
基于语义分割的场景感知是一项基础又颇具挑战的机器视觉议题,其目标是为每个像素预测一个预定义的类别标签。
特征的表示能力在卷积神经网络的发展下取得了显著的提升。为了整合全局上下文中的特征信息,近来人们提出了很多增大感受野的方法,总体上可以分为局部(local)和非局部(non-local)两种类型。
传统的局部方案通过增加常规卷积层(或其变种atrous卷积)来扩大感受野。然而由于有效感受野呈高斯分布,因此很难保留图像结构的细节信息。考虑到这种局限性,一些non-local方法被提出,它们可以直接对远距离特征进行建模,比如attention方法和图神经网络方法。