1. 概述
视觉识别需要丰富的表示,从低到高,从小到大,从细到粗的分辨率。架构网络正在探索骨干网络以设计更深以及更宽的网络,但如何融合这些层以及这些块值得进一步的探讨。尽管已经提出了残差网络来组合层,但这些连接本身已经“浅”,并且仅通过简单的一步操作融合。我们认为通过更深层次的融合可以更好的聚合不同层的信息。我们的深层聚合结构以迭代和分层方式合并特征层次结构,使网络具有更高的准确性和更少的参数。
2. 深层聚合
首先,我们将聚合定义为网络中不同层之间的连接。在这项工作中,我们专注于一系列架构,以有效地聚合深度,分辨率和尺度。
2.1 迭代深层聚合(Iterative Deep Aggregation)
首先通过网络中堆叠的块根据分辨率划分为多个阶段。深层阶段的语义信息很丰富但是空间上比较粗糙。将低层阶段通过跳跃连接到高层阶段来融合尺寸和分辨率。但现有的跳跃连接都是线性的,并且最浅层的聚合最少,如图(b)。因此,我们提出IDA来聚合并加深特征的代表。聚合从最浅,最小的尺度开始,然后迭代地合并更深,更大的尺度。通过这种方式ÿ