DLA简述

引言

  更深层的神经网络可以提取更多的语义信息和全局特征,但这不代表最后一层是任务的最终表示,跳跃连接就已经证明了这一点,跳跃连接对分类和回归以及结构化任务是有效的,
  本文研究如何聚合层以更好地融合语义和空间信息进行识别和定位,扩展当前方法的“浅”跳跃连接,聚合架构更多深度和共享,介绍两种深度聚合(DLA)结构:迭代深度聚合(IDA)和分层深度聚合(HDA)。IDA主要进行分辨率和尺度的融合,而HDA主要融合各种模组和通道的特征。IDA根据基础网络结构,逐级提炼分辨率和聚合尺度(类似ResNet)。HDA整合其自身的树状连接结构,并将各个层级聚合为不同等级的表征(空间尺度的融合,类似FPN)。本文的策略可以通过混合使用IDA和HDA来共同提升效果。
  本文通过实验将现有的ResNet(《Deep residual learning for image recognition》)和ResNeXt(《Aggregated residual transformations for deep neural networks》)网络结构采用DLA架构,来进行大尺度图像分类,细粒度识别,语义分割和边界检测任务。本文的结果显示DLA的使用可以在现有的ResNet、ResNetXt、DenseNet 网络结构的基础上再提升模型的性能、减少参数数量以及显存开销。DLA达到了目前分类任务中紧凑模型的最佳精度。不需要通过更多的结构变更,同样的网络能在多个细粒度识别任务就能达到最佳精度。通过标准技术对标准化输出进行重塑,DLA在Cityscapes的语义分割任务中实现了最高类间精度,并在PASCAL Boundaries数据集上的边界检测任务中达到最佳精度。DLA是一种通用而有效的深度视觉网络拓展技术。

相关工作

  密集连接的网络DenseNets(《Densely connected convolutional networks》)是语义融合的主要架构系列,旨在通过跳跃连接来更好地传播功能和损失。本文的分层深度聚合扩展了与交叉阶段的跳跃连接,密集连接和深度聚合的网络实现了更高的准确性以及更好的参数和内存效率。
  特征金字塔网络FPNs(《Feature pyramid networks for object detection》)是空间融合的主要体系结构家族,旨在通过自上而下和横向连接来平衡金字塔特征层次结构的分辨率和标准化语义。本文的迭代深度聚合同样提高了分辨率,并通过非线性和渐进融合进一步深化了表示。金字塔和深度聚合网络能够更好地解决结构化输出任务的内容和位置

方法

  本文将聚合定义为整个网络的不同层之间的组合,如果一组聚合是复合的、非线性的,并且最早的聚合层经过多个聚合层,就称它为深度聚合。由于网络可以包含许多层和连接,模组化设计可以通过分组与复用来克服网络过于复杂的问题,层组合为块,块根据其特征分辨率组合成层级,本文主要探讨如何聚合块与层级。
在这里插入图片描述
Iterative Deep Aggregation (IDA)
   图2中,(a)和(b)表示已存在的网络结构,©是迭代层聚合IDA,©借鉴了(b)中的跳跃连接,通过迭代从浅层到深层不断改善layer的输出,使浅层的网络可以在后续的网络中获得更多的处理。IDA函数如下所示:
在这里插入图片描述
  其中N表示聚合节点。
Hierarchical Deep Aggregation(HDA)
  HDA在树结构融合块和层级,来保留并组合特征通道。通过HDA,浅层和深层的网络层可以组合到一起,这样可以学习跨越各个层级特征的丰富组合信息。IDA虽然能有效的组合层级,但是IDA依旧是呈序列的,它尚不足以融合网络的各个块的信息。HDA的深度分支结构如图2 (d)所示。
  建立了基础的HDA结构后,可以在此基础上改进其深度与效率。通过改变中间层网络的聚合形式和整个树结构,将一个聚合节点的输出返回到主干网络,作为下一个树结构的输入,如图2 (e)所示。这样可以将之前所有块的信息聚合到后续的处理中,更好地保留了特征,而不是单独地处理前面的块。为了提高效率,本文通过将父块与左边的子块融合,将拥有相同深度(也就是有相同特征图尺寸)的聚合节点融合在一起,如图2 (f)所示。
  HDA函数如下所示:
在这里插入图片描述
  其中N表示聚合节点。R和L定义为:
在这里插入图片描述
  其中B表示一个卷积块。
Deep layer aggregation( DLA)
  将IDA和HDA结合起来,就是DLA结构,如图3所示:
在这里插入图片描述
  红框标注的即为HDA的类树形结构,黄线即为IDA的迭代方法,作者通过DLA将两者结合,通过HDA将数据(图片)的浅层与深层表达进行更好地融合,在阶段之间用IDA,在每个阶段内部使用HDA,在各个阶段之间通过池化进行下采样。
DLA的网络参数配置如表1所示:
在这里插入图片描述

实验

在这里插入图片描述
  图5展示了DLA在ILSVRC数据集上的表现。
在这里插入图片描述
  图6展示了与state-of-the-art的方法对比。
  对于语义分割,表4和表5展示了在Cityscapes和CamVid上DLA网络的表现结果。
在这里插入图片描述
  对于边界检测,在BSDS和PASCAL上评估的效果如表6表7所示。
在这里插入图片描述

总结

  这篇论文主要是针对不同层级stage和不同块block之间信息的融合问题进行研究,之前常见的融合方式是跳跃连接,但是作者认为这种方式是“浅”(shallow)的,仅在块内进行融合,因此本文提出了DLA(Deep Layer Aggregation)结构,迭代式地将网络结构的特征信息融合起来,从而让网络有更高的精度和更少的参数。其中DLA结构由IDA 结构(iterative deep aggregation)和HAD结构 (hierarchal deep aggregation)组成,IDA主要进行跨分辨率和尺度的融合,而HDA主要融合各个模组和通道的特征图。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值