文 / 软件工程师 Xianzhi Du 和技术项目经理 Jaeyoun Kim,Google Research
为图像任务创建的卷积神经网络通常会把输入图像编码为一系列中间特征,以获取图像的语义(从局部到全局),而该网络中每个后继层的空间维度都较低。然而,这种尺度缩小的模型可能无法为多尺度的视觉识别任务提供强大的功能,而识别和定位对这些任务都非常重要(例如目标检测和分割)。一些研究(包括 FPN 和 DeepLabv3+)提出用 多尺度编码器-解码器架构 来解决这个问题,即首先将尺度缩小的网络(例如 ResNet)用作编码器(通常称为骨干网络模型),然后将解码器网络应用于骨干网络上以恢复空间维度信息。
虽然该架构在图像识别和定位任务方面取得了更大的进步,但仍然依赖于尺度缩小的骨干网络,但在这类网络中,通过降采样 (Down-sampling) 丢弃了空间信息,然后解码器必须尝试恢复这些信息。如果设计出一个可以避免此类空间信息丢失的替代骨干网络模型,且其从本质上非常适合同时进行图像识别和定位,那会怎么样?
在我们最近的 CVPR 2020 论文《SpineNet:学习用于识别和定位的尺度排列骨干网络》(SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization) 中,我们提出了一种称为 尺度排列模型 (Scale-Permuted Model) 的元架构, 它对骨干网络架构设计进行了两项主要改进。首先,中间特征图的空间分辨率应该能够随时升高或降低,以便模型在深度增加时,仍能保留空间信息。其次,特征图之间应该能够跨特征尺度连接,以促进多尺度特征融合。然后我们借助全新搜索空间设计(具有上述特点)的神经架构搜索 (Neural Architecture Search),发现有效的尺度排列模型。我们证明此模型在多尺度视觉识别任务中取得了成功,比尺度缩小的标准骨干网络性能更好。
SpineNet:学习用于识别和定位的尺度排列骨干网络
https://arxiv.org/abs/1912.05027神经架构搜索
https://arxiv.or