图灵TOPIA
作者:Golnaz Ghaisi等
编译:刘静
图灵联邦编辑部出品
4月16日,arXiv公布了一篇谷歌大脑的最新成果论文,已被CVPR 2019接收。
研究人员采用神经网络架构搜索,发现了一种新的特征金字塔架构。
这个被发现的架构名为NAS-FPN,可实现比Mask-RCNN、FPN、SSD更快更好的目标检测。
有推特网友戏称这项研究结果是“AI提出了新的AI算法“。
因为,目前最先进的用于对象检测的卷积体系结构都是人工设计的。这次研究的目标是学习一种更好的用于目标检测的特征金字塔网络架构。
在一个覆盖所有交叉尺度连接的可扩展搜索空间中,采用神经网络架构搜索,发现了一种新的特征金字塔架构。这个被发现的架构名为NAS-FPN,由自顶向下和自下而上的连接组合而成,可以跨范围地融合特性。
与最先进的物体检测模型相比,NAS-FPN与RetinaNet框架中的各种骨干模型相结合,实现了更好的准确性和延迟权衡。
与MobileNetV2中最先进的SSDLite相比,NAS-FPN提高了2 AP的移动检测精度,达到48.3 AP,以更少的计算时间超越了MaskR-CNN的检测精度。
图1:移动设备上精确模型(顶部)和快速模型(底部)的每个图像的平均精度与推理时间。 绿色曲线突出了NASFPN与RetinaNet相结合的结果。
以下是论文介绍:
学习视觉特征表示是计算机视觉中的一个基本问题。近年来,在用于图像分类和目标检测的深度卷积网络(ConvNets)模型体系结构设计方面取得了很大进展。
与预测图像类别概率的图像分类不同,对象检测对于在跨广泛尺度和位置上检测和定位多个对象有其自身的挑战。为了解决这个问题,许多现代物体探测器通常使用表示具有多尺度特征层图像的金字塔特征表示。
特征金字塔网络(FPN)是一种典型的模型体系结构,用于生成目标检测的金字塔特征表示。该方法采用一种典型的图像分类主干模型,通过自顶向下和横向连接,将主干模型中特征层次结构中的相邻两层按顺序组合,构建特征金字塔。对语义强但分辨率低的高级特征进行上采样,并与较高分辨率的特征相结合,生成既高分辨率又语义强的特征表示。
虽然FPN简单有效,但它可能不是最佳的架构设计。最近,PANet显示在FPN特性上添加额外的自下而上路径可以改进低分辨率特性的特性表示。许多最近的论文提出了各种交叉尺度连接或操作,以组合特征以生成金字塔特征表示。
设计特征金字塔结构的挑战在于其巨大的设计空间。结合不同尺度特征的可能连接数随层数呈指数增长。近年来,神经结构搜索算法在大搜索空间内有效地发现图像分类的最佳结构方面取得了很好的效果。为了达到他们的结果,Zoph等人提出一个模块化的架构,可以重复并堆叠成一个可扩展的架构。
受他们启发,我们提出了一种生成金字塔表示的可伸缩体系结构的搜索空间。我们工作的主要贡献在于设计搜索空间,覆盖所有可能的跨尺度连接,以生成多尺度特征表示。我们的目标是发现一个具有相同输入和输出特性级别并且可以重复应用的原子体系结构。
图2,NAS-FPN的架构图。 每个点代表一个要素图层。 同一行中的要素图层具有相同的分辨率。 分辨率在自下而上的方向上降低。 箭头表示内部层之间的连接。 构造图形使得输入层在左侧。 金字塔网络的输入标有绿色圆圈,输出标有红色圆圈。 (a)基线FPN架构。 (b-f)神经架构搜索通过RNN控制器的训练发现的7单元NAS-FPN架构。 随着代理任务的奖励(AP)逐步改善,发现的体系结构趋同。 (f)我们在实验中使用的最终NAS-FPN。
模块化的搜索空间使搜索金字塔结构变得易于管理。模块化金字塔结构的另一个好处是能够随时随地检测目标(或“提前退出”)。尽管已经尝试了这种早期的退出方法,但是考虑到这种约束而手动设计这种架构是非常困难的。
所发现的体系结构名为NAS-FPN,在构建对象检测架构方面具有很大的灵活性。NAS-FPN适用于各种主干模型,如MobileNet,ResNet和AmoebaNet。它为快速移动模型和精确模型提供了更好的速度和精度权衡。
表1:使用NAS-FPN和其他最先进的检测器的RetinaNet在COCO测试装置上的性能。
结合RetinaNet框架中的MobileNetV2主干网,在相同的推理时间下,它比使用MobilenetV2的最先进的SSDLite移动检测模型高出2个AP。凭借强大的AmoebaNet-D主干模型,NASFPN通过单一测试规模实现了48.3 AP单一模型精度。检测精度超过了报告的Mask RCNN,推理时间更短。具体结果总结如图3所示。
图3:检测精度与推理时间(左),FLOP(中)和参数(右)。 (a)我们与其他高精度模型进行比较。 所有模型的推理时间都在具有P100 GPU的机器上计算。 绿色曲线突出显示具有不同骨干架构的NAS-FPN的结果。 标记上方的数字表示NAS-FPN中金字塔网络的重复次数。 每个数据点旁边都提到了NAS-FPN / FPN的特征尺寸和输入图像尺寸。 (b)我们与其他快速模型进行比较。 所有型号的输入图像尺寸为320x320,推理时间在Pixel 1 CPU上计算。 我们的模型使用MobileNetV2的轻量级模型进行训练。
结论
在本文中,我们提出使用神经架构搜索来进一步优化用于对象检测的特征金字塔网络的设计过程。我们在COCO数据集上的实验表明,被发现的体系结构,名为NAS-FPN,具有灵活性和高性能,可用于构建精确的检测模型。在广泛的准确性和速度权衡中,NAS-FPN在许多主干架构上产生了显着的改进。
论文地址:
https://arxiv.org/pdf/1904.07392.pdf
加群交流
关注目标检测技术,欢迎加入52CV-目标检测群,扫码添加CV君拉你入群,
(请务必注明:目标检测)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:702781905。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉
麻烦给我一个“在看”!