One-Shot Path Aggregation Network Architecture Search for Object Detection
1.做了什么?
(1)此文提出了一种新的单次路径聚合网络结构搜索算法,显著提高了搜索效率和检测精度。引入自顶向下、自底向上、融合-分裂、尺度均衡、跳跃-连接和无操作这六个异构信息路径来构建搜索空间。
(2)提出了一种新的FPN搜索空间,在该空间中,每个FPN候选对象都由一个紧密连接的有向无环图(每个节点是一个特征金字塔,每个边是6条异构信息路径之一)表示。
(3)提出了一种高效的一次性搜索方法来寻找最优路径聚合结构,即先训练一个超级网络,然后用进化算法来寻找最优候选路径。
以下几种对比
2.目的
由于以上图1中的(a-e)存在(1)低效率,搜索过程通常计算成本高(2)适应性较弱的缺点。于是受这些研究的启发,同时为了解决上述问题,文本提出了此框架,用于自动搜索更好的FPN进行目标检测。
3.贡献
(1)设计了6条可以聚合多层次信息的信息路径,实现了低、中、高层信息的有效互补组合。第一个研究多个信息路径的聚合。
(2)提出了一种新的一次性搜索方法,以高效地搜索这6种信息路径的最优聚合。
(3)作为即插即用模块,本文的搜索架构可以很容易地适应主流探测器。
4.模块设计
4.1. 6条信息路径(图3)
为了有效地聚合不同层次的金字塔特征,提出了6条信息路径,可以覆盖低、中、高级信息。与经典的FPN类似,这些信息路径将输入金字塔特征{p2, p3, p3, p5}(见图3)映射到{f2, f3, f4, f5}。然而,所提出的信息路径可以捕获比FPN更丰富和多样的信息。
- 1.Top-down Information Path
自顶向下的信息路径是对经典的FPN的修改,对于这条路径,输出锥体特征,
自上而下的信息路径是在经典FPN的基础上修改的。对于这条路径,从上到下依次构造输出的金字塔特征。具体来说,将同一层次的输入金字塔特征映射与更高层次的输出特征相结合,迭代构建每个特征映射。
- 2. Bottom-up Information Path
自底向上的路径,按照自底向上的方式依次构造输出的金字塔状特征,即先构造大比例尺特征图,如图3 (b)所示。每个特征映射是通过合并同一级别的输入特征映射和下面的输出特征映射得到的
- 3.Scale-equalizing Information Path
尺度均衡信息路径是由SEPC提出的,它在经典的FPN之后叠加尺度均衡金字塔卷积来捕获尺度间的相关性。以单个金字塔的卷积运算作为信息路径。如图3 ©所示,每个特征映射都是通过合并邻接级输入特征映射得到的
- 4.Fusing-splitting Information Path
设计一个两步fusing-splitting信息路径,首先结合高级和低级输入金字塔的特性,然后将多尺度特性输出的组合特性图3 (d)。最高的两个输入特征图合并成 αs,和最小的两个通过元素和合并为α,公式(6)为最终计算
- 5.Skip-connect Information Path
跳转连接路径来执行identity mapping。 - 6.None
利用无信息路径来删除冗余信息路径。这两个无参数信息路径的设计是为了减少模型的复杂性,从而得到更好的精度-效率平衡。
4.2. One-Shot Search
此方法主要就是用来有效地搜索上述六种信息路径的最优聚合。首先构造了一个超级网络,它是一个全连接的多图DAG(有向无环图)。DAG的节点表示特征映射(以特征金字塔的方式),两个节点之间有6条不同类型的边,每条边表示一条信息路径。整个优化过程包括两个步骤:(1)超级网络的训练,(2)最优子网搜索。对于(1),使用公平抽样策略训练超级网络直到收敛(优化超级网络的权值)。一旦训练完成,超级网络的权值就固定了(一次性优化)。对于(2),使用进化算法(EA)来搜索最优子网,即两个节点之间只有一条最优边的DAG。显然,最优子网代表了期望的最优的聚合了多条信息路径的FPN。(2)是非常高效的,因为每个抽样的子网都只是通过使用(1)中训练的超级网络的权值来进行推理。这是一次性优化非常高效的主要原因。
超级网络的组成部分:超级网络是一个由N + 2个节点组成的DAG (N为预定义的定值),其中输入节点P代表从主干抽取的特征,输出节点O是最终的输出特征金字塔。同样,中间节点xi也是金字塔的特征。每条有向边(i,j)都与某个将xi转换为xj的信息路径IP(i,j)相关联。假设中间节点与之前的节点完全连接,并且通过求和将标识映射到输出节点。在这样的DAG模型中,每个节点i聚合来自前一个节点的输入: