IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14-19 日在美国西雅图举行。近日,大会官方论文结果公布,旷视研究院 17 篇论文被收录,研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。
本文是旷视 CVPR 2020 论文系列解读第6篇,也是 CVPR 2020 Oral 论文之一,它提出了针对语义分割任务的的动态路径选择(Dynamic Routing)网络,可根据每个图像中物体尺寸的分布情况,动态生成与这些数据相关的网络传播路径。一系列消融实验展示了本文动态网络相对于静态架构的优势。在Cityscapes和PASCAL VOC 2012数据集上的实验也证明了本文方法的有效性,模型以小得多的计算成本在性能上取得了与当前最佳工作相当的表现。 论文代码已开源。
论文名称:Learning Dynamic Routing for Semantic Segmentation
论文链接:https://arxiv.org/abs/2003.10401
论文代码:https://github.com/yanwei-li/DynamicRouting
目录
导语
简介
动态路径选择
-
路径空间
路径选择过程
实验
-
动态路径选择
Cityscapes
PASCAL VOC 2012
结论
参考文献
往期解读
导语
图像语义分割的目标是对每个像素都进行语义分类,它是当前计算机视觉领域最重要、最具挑战性的任务之一。语义分割的问题之一来自于其处理的图像中存在尺寸不一的物体及背景区域,这种尺寸分布的差异给特征表示和关系建模带来了不少困难。
传统的解决方法是通过设计精巧的模型结构来缓解这种差异,然而无论是人工设计还是基于NAS模型搜索得到的网络,都尝试在单个网络框架中编码所有的像素区域。以这种模式来应对真实环境中尺度多样化分布的物体时会缺乏足够的自适应性。因此,需要更加可定制化的网络来对每一张图像进行处理。
简介
本文中,旷视研究院针对语义分割任务提出一个全新的理念:动态路径选择(Dynamic Routing)。具体而言,动态路径选择会在推理过程中根据输入图像生成前向传播路径,也就是说随着输入数据的不同,网络也会自适应地生成不同的结构进行特征编码。利用该方法,网络可以将不同尺寸的物体(或背景)分配到对应分辨率的层级上,以实现有针对性的特征变换。
图1:根据输入尺寸的不同,本文提出的方法选择相应的前向计算路径
如图1所示,模型会根据图像所包含的物体尺寸分布情况选择不同路径。与之前用于高效物体识别的动态网络结构研究不同的是,本文聚焦于语义表征,目的是缓解来自画面物体尺寸差异所带来的影响,从而提升网络性能和效率。
在图像分类任务中,特征分辨率往往随着网络层级的增大成递减趋势,而这在语义分割任务中并不适用。本文针对语义分割任务提出一个容量更大的路径空间,其包含多个独立的计算节点。不同于之前工作的是,本文所提出的路径空间可支持多路径传播与跳跃链接,而这种连接方式已被证明在语义分割中起着相当重要的作用。因此,本文可以在所提出的路径空间中对多个经典网络结构都进行建模,如图3所示。
就动态路径选择而言,本文设计了一种路径选择门控网络,称为软条件门控(Soft Conditional Gate),该门控网络可根据输入图像自适应地选择特征变换路径。此外,该路径选择门控还能被建模为一个可微分模组,从而结合给定的计算资