谷歌大脑新技术——多尺度特征金字塔结构用于目标检测


640?wx_fmt=png

多尺度特征金字塔结构

640?wx_fmt=gif

导 读

640?wx_fmt=png

当前最先进的目标检测卷积结构是手动设计的。在这里,我们的目标是学习一个更好的特征金字塔网络结构的目标检测。

640?wx_fmt=png

采用神经结构搜索,在覆盖所有跨尺度连接的新的可扩展搜索空间中发现一种新的特征金字塔结构,新体系结构名为:NAS-FPN,由自上而下和自下而上的连接组成,以融合跨尺度的特性。NAS-FPN与RetinaNet框架(上图)中的各种主干模型相结合,与最先进的目标检测模型相比,获得了更好的精度。

引言&亮点

640?wx_fmt=png

设计特征金字塔架构的挑战在于其巨大的设计空间。组合来自不同比例的特征的可能连接的数量随图层的数量呈指数增长。

640?wx_fmt=png

最近,Neural Architecture Search算法展示了在巨大搜索空间中高效地发现用于图像分类的最佳性能架构。为了获得结果,Zofh等人提出一种模块化架构,可重复并堆叠成可扩展架构。

Zofh等人的启发,提出了可扩展架构的搜索空间,以生成金字塔表示。主要的工作的关键贡献在于设计搜索空间,该搜索空间覆盖所有可能的交叉比例连接以生成多尺度特征表示。

在搜索过程中,目标是发现具有相同输入和输出特征级别的原子架构,并且可以重复应用。模块化搜索空间使搜索金字塔架构易于管理。模块化金字塔架构的另一个优点是能够随时检测到物体(或“early exit”)。尽管已经尝试了这样的早期退出方法,但是在考虑到这种约束的情况下手动设计这样的体系结构是相当困难的。

640?wx_fmt=png

移动设备上的精确模型(顶部)和快速模型(底部)中每幅图像的平均精度与推理时间。

新方法

640?wx_fmt=png

我们的工作是以RetinaNet为基础的,因为这是一个简单和有效的框架。RetinaNet有两方面:一种是backbone network(图像分类网络),另一种是特征金字塔网络(FPN)。提出的算法目标是发现好于FPN的RetinaNet。

640?wx_fmt=png

RetinaNet

640?wx_fmt=gif

Architecture Search Space

640?wx_fmt=gif

在我们的搜索空间中,特征金字塔网络由多个“合并单元”组成,这些单元将多个输入层组合成RetinaNet的表示。在下面,我们将描述输入到特征金字塔网络,以及如何构建每个合并单元。

Feature Pyramid Network

特征金字塔是用于检测不同尺度的对象的识别系统中的基本组件。但是最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们是计算密集型和内存密集型的。

640?wx_fmt=png

利用深层卷积网络固有的多尺度金字塔层次结构来构造具有边际额外损失的特征金字塔。开发了一种具有横向连接的自上而下的架构,用于在所有尺度上构建高级语义特征图。在基本的Faster R-CNN系统中使用FPN,在COCO检测基准上没有任何花里胡哨的技巧实现了最先进的单模型结果,超过所有现有的单模型条目,包括来自COCO2016挑战赛获胜者。

多尺度上识别目标是计算机视觉的一个基本挑战。在图像金字塔上构建特征金字塔(简称特征化图像金字塔)形成了一个基本解决方案。因为一个目标的尺度改变通过在金字塔中移动层级来抵消,所以从某种意义上说这些金字塔是尺度不变的。直观上讲,这些性质通过在位置和金字塔层级上扫描模型使得模型检测跨尺度的目标。

历史阅读:特征金字塔特征用于目标检测

Merging cell

在以前的目标检测工作中,一个重要的观察是必须在不同的尺度上“合并”特征。跨尺度连接模型将高级别特征与强语义和低级别特征与高分辨率相结合。

640?wx_fmt=png

合并单元格中需要四个预测步骤。注意,输出特性层被推后到候选特性层的堆栈中,并可用于下一个合并单元格的选择。

Deeply supervised Anytime Object Detection

堆叠的金字塔网络的多尺度NAS-FPN的一个优势是在所给的任何金字塔网络输出就可以获取特征金字塔表示。该属性支持任何时间的检测,可以通过早期退出生成检测结果。

640?wx_fmt=png

任何时刻检测模型的性能都接近基线模型,说明NAS-FPN可以用于任何时间的检测。

实验结果

640?wx_fmt=png

下图(左)显示了不同迭代训练的抽样架构的AP,可以看到随时间的推移,控制器生成了更好的体系结构;下图5(右)显示了抽样体系结构的总数以及RNN控制器生成的唯一体系结构的总数。

640?wx_fmt=png

具体的独特架构如下:

640?wx_fmt=png

Discovered feature pyramid architectures

什么促使一个好的特征金字塔结构?我们希望通过可视化已发现的架构来阐明这个问题。

640?wx_fmt=png

当控制器收敛时,我们发现了更好的特征。控制器不是随机地从候选池中选择两个输入层,而是学习在新生成的层上构建连接,以重用以前计算过的特征表示。

640?wx_fmt=png

Detection accuracy to inference time (left), FLOPs (middle), and parameters (right)

640?wx_fmt=png

Performance of RetinaNet with NAS-FPN and other state-of-the-art detectors on test-dev set of COCO.

640?wx_fmt=png

640?wx_fmt=png

推荐阅读:

关注“计算机视觉战队”公众号,回复文章获取码,即可获得全文链接。

[1] 人脸检测与识别的趋势和分析  【获取码】0723

[2] 人脸实践篇 | 基于Caffe的年龄&性别识别 【获取码】08

[3] 人脸识别 | 基于深度学习以人类为中心的图像理解 获取码】24

[4] 人脸专集1 | 级联卷积神经网络用于人脸检测(文末福利)【获取码】03

[5] 人脸专集2 | 人脸关键点检测汇总(文末有相关文章链接)获取码23

[6] 人脸专集3 | 人脸关键点检测(下)—文末源码【获取码】10

[7] 人脸专集4 | 遮挡、光照等因素的人脸关键点检测【获取码】01

[8] 人脸专集5 | 最新的图像质量评价【获取码】1021

[9] 加入我们,一起学习深度学习(目标人脸检测识别)【获取码】计算机视觉战队0

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

640?wx_fmt=jpeg

我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

640?wx_fmt=jpeg

微信学习讨论群,我们会第一时间在该些群里预告!

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值