DLA

最新推荐文章于 2022-11-16 14:45:42 发布

weixin_37958272

最新推荐文章于 2022-11-16 14:45:42 发布

阅读量2.1k

点赞数

分类专栏：经典模型文章标签：计算机视觉人工智能深度学习

经典模型专栏收录该内容

14 篇文章 0 订阅

订阅专栏

DLA

视觉识别需要丰富的表现形式，从低到高，从小到大，从细到粗的分辨率。即使在一个卷积网络中，一个单独的层是不够的：复合和聚合这些表示可以改进对what and where的推断。架构方面的工作正在探索网络主干的许多方面，设计更深层或更广的架构，但如何最好地聚合整个网络中的层和块值得进一步关注。虽然已经加入了skip connections来结合层，但这些连接本身就很 “浅”，只能通过简单的一步操作来融合.我们用更深的聚合来增强标准架构，以更好地融合各层信息。我们的深层聚合结构对特征层次进行迭代和分层合并，使网络的精度更高，参数更少。跨体系结构和任务的实验表明，与现有的分支和合并方案相比，深层聚合提高了识别和分辨率。

1. Introduction

更多的非线性、更大的容量和更大的接受场通常会提高精度，但对于优化和计算来说可能是个问题.为了克服这些障碍，已经加入了不同的块或模块来平衡和调节这些数量，例如用于减少尺寸的bottlenecks [29, 39, 17]或用于特征和梯度传播的残差、门控和并联连接[17, 38, 19].根据这些方案设计的网络有100+甚至1000+层。根据这些方案设计的网络有100多层甚至1000多层。

然而，如何连接这些层和模块还需要进一步的探索。从LeNet[26]到AlexNet[23]到ResNet[17]的分层网络按顺序堆叠层和模块。分层精度比较[11,48,35]、可转移性分析[44]和表示可视化[48,46]表明，更深层次提取更多语义和更全局的特征，但这些迹象并不能证明最后一层是任何任务的最终表示。事实上，跳转连接已经被证明对于分类和回归[19,4]和更结构化的任务[15,35,30]是有效的。聚合与深度和宽度一样，是架构的一个关键维度。

在这项工作中，我们研究了如何聚合层，以更好地融合语义和空间信息，从而实现识别和定位。在扩展当前方法的 "浅层 "skip connections的基础上，我们的聚合架构加入了更多的深度和共享。我们介绍了两种深层聚合（DLA）的结构：迭代深层聚合（IDA）和分层深层聚合（HDA）。这些结构是通过一个架构框架来表达的，与骨干网的选择无关，以便与当前和未来的网络兼容。IDA专注于融合分辨率和尺度，而HDA专注于合并所有模块和通道的特征。IDA遵循基础层次结构来细化分辨率和聚合尺度阶段.HDA集合了自己的树状结构连接层次，这些连接跨越和合并阶段来聚合不同层次的表示。我们的方案可以结合起来进行复合改进。IDA专注于融合分辨率和尺度，而HDA专注于合并所有模块和通道的特征。IDA遵循基础层次结构来细化分辨率和聚合尺度的阶段性.HDA集合了自己的树形结构连接的层次结构，这些结构跨越和合并阶段来聚合不同层次的表示。我们的方案可以结合起来进行复合改进。

我们的实验评估了跨标准体系结构和任务的深层聚合，以扩展ResNet[16]和ResNeXt[41]，用于大规模图像分类、细粒度识别、语义分割和边界检测。我们的结果显示，与基线ResNet、ResNeXT和DenseNet架构相比，性能、参数计数和内存使用都有改进。DLA在紧凑的分类模型中实现了最先进的结果。不需要进一步的架构，相同的网络在几个细粒度的识别上获得了最先进的结果基准。重铸对于采用标准技术的结构化输出，DLA在城市景观的语义分割方面达到了同类最佳的精度[8]，并在PASCAL边界上实现了最先进的边界检测[32]。深层聚合是对深层可视化体系结构的一种普遍而有效的扩展。通过标准技术重构结构化输出，DLA在Cityscapes的语义分割[8]和PASCAL Boundaries的边界检测[32]上达到了一流的精度。深层聚合是对深度视觉架构的一种普遍而有效的扩展。

2. Related Work

我们回顾了视觉识别的架构，强调了分层特征和金字塔尺度聚合的关键架构，并将这些与我们关注的跨深度、尺度和分辨率的深度聚合联系起来。

我们的聚合架构与融合特征层次结构的领先方法关系最为密切。融合的 key axes 是语义和空间。语义融合，或跨通道和深度的聚合，可以提高对特征的推断（improves inference of what）。空间融合，或跨分辨率和尺度的聚合，提高了对位置的推断(improves inference of where)。深层聚合可以看作是两种融合形式的结合。

密集连接网络(DenseNets)[19]为语义融合的主流架构系列，设计了以下几个方面的内容以更好地通过skip connections传播特征和损失，将所有层级分阶段连接起来。我们的分层深度聚合在短路径和重用的重要性上有着相同的见解，并且扩展了跨阶段的树的跳跃连接，而不是串联。密集连接和深度聚合的网络可以获得更高的精确度以及更好的参数和内存效率。

特征金字塔网络（FPNs）[30]是空间融合的主流架构家族，旨在通过自上而下和横向连接，在金字塔特征层次结构的各个层次上均衡分辨率和标准化语义。我们的迭代深度聚合同样提高了分辨率，但通过非线性和渐进式融合进一步深化了表征。FPN的连接是线性的，早期的层级没有聚集更多的是为了抵消其相对语义上的弱点。金字塔型和深度聚合型网络更能解决结构化输出任务的内容和位置。

3. Deep Layer Aggregation

我们将聚合定义为网络中不同层的组合。在这项工作中，我们关注一系列架构，以有效地聚合深度、分辨率和尺度。如果一组聚集是复合的、非线性的，并且最早的聚集层经过多个聚集，我们称之为深度聚集。

由于网络可以包含许多层和连接，模块化设计有助于通过分组和重复来对抗复杂性。将图层分组为块，然后按其特征分辨率将其分组为阶段。我们关心的是聚集块和阶段。

3.1. Iterative Deep Aggregation

迭代深度聚合遵循骨干架构的迭代堆叠。我们根据特征分辨率将网络的堆叠块分为几个阶段，更深的阶段语义更强，但空间上更粗。从浅层到深层阶段的跳过连接合并了尺度和分辨率。然而，现有工作中的skips，如FCN[35]、U-Net[33]和FPN[30]，都是线性的，并且将最浅的层聚集得最少，如图2（b）所示。

在这里插入图片描述

图2：聚合的不同方法。（a）按照分类和回归网络的默认设置，不聚合组成块。（b）将网络的一部分与跳过的连接相结合，这通常用于分段和检测等任务，但仅通过在每个步骤中合并之前的部分来实现。我们提出两种深度聚合架构：（c）通过对（b）的skip connections重新排序，迭代地聚集（b）的最浅部分以供进一步处理，（d）通过块的树结构分层聚合，以更好地跨越不同深度的网络特征层次。(e) and (f) are refinements of (d) that deepen aggregation by routing intermediate aggregations back into the network and improve efficiency by merging successive aggregations at the same depth. Our experiments show the advantages of © and (f) for recognition and resolution.

我们建议改用IDA逐步聚合和深化表示。聚合从最浅、最小的尺度开始，然后迭代合并更深、更大的尺度。通过这种方式，浅层特征在通过不同阶段的聚合传播时得到细化，图2©显示了IDA的结构。

具有越来越深的语义信息的一系列层 $\mathbf x_1,...,\mathbf x_n$ 的迭代深度聚合函数I表示为

在这里插入图片描述

其中N为聚合节点。

3.2. Hierarchical Deep Aggregation

层次化深度聚合将树中的blocks和stages合并，以保存和组合特征通道。通过HDA浅层和深层的结合，可以学习到更丰富的组合，跨越更多的特征层次结构.虽然IDA有效地结合了阶段，但对于融合网络的许多块来说是不够的，因为它仍然只是顺序的。分层聚合的深层、分支结构如图2（d）所示。

在建立了HDA的一般结构后，我们可以提高其深度和效率。如图2(e)所示，Rather than only routing intermediate aggregations further up the tree，而是将聚合节点的输出反馈到骨干中，作为下一个子树的输入。这样可以传播之前所有块的聚合，而不是单独传播之前的块，以更好地保存特征。为了提高效率，我们将相同深度的聚合节点进行合并（合并父节点和左子节点），如图2（f）所示。

分层深度聚合函数 $T_n$ ，深度为n，公式为

在这里插入图片描述

其中N为聚合节点。R和L被定义为

在这里插入图片描述

其中B表示卷积块。

3.3. Architectural Elements

Aggregation Nodes 聚合节点的主要功能是对其输入信息进行组合和压缩。节点学会选择和投射重要的信息，使其输出时保持与单一输入相同的维度。在我们的架构中，IDA节点始终是二进制（binary）的，而HDA节点的参数数则根据树的深度而变化。

在这里插入图片描述

图3：深层聚合学习可以更好地从网络中提取全方位的语义和空间信息。迭代连接加入相邻的阶段，逐步加深和细化空间表示。层次化连接用树交叉阶段，跨越层的频谱，更好地传播特征和梯度。

虽然聚合节点可以基于任何块或层，但为了简单和高效，我们选择单一卷积，然后进行批量归一化和非线性。这样可以避免聚合结构的开销。在图像分类网络中，所有节点都使用1x1卷积.在语义分割中，我们再增加一级迭代深度聚合来插值特征，在本例中使用3x3卷积。

由于residual connections对于组装很深的网络很重要，我们也可以在我们的聚合节点中包含residual connections。然而，并不能立即明确它们对于聚合的必要性。在HDA中，从任何block 到根部的最短路径最多就是层次结构的深度，所以沿着聚合路径可能不会出现递减或爆炸式的梯度。在我们的实验中，我们发现当最深的层次结构有4层或更多时，节点中的residual connection可以帮助HDA，而对于层次结构较小的网络，residual connection会伤害网络。我们的基础聚合，即公式1和公式2中的N，定义为:

在这里插入图片描述

其中 $\sigma$ 为非线性激活， $\mathbf w_i$ 和 $b$ 是卷积中的权重。如果加入residual connections，则方程为

在这里插入图片描述

注意，N的参数的顺序是重要的，应该遵循方程2。

Blocks and Stages 深层聚合是一个通用的架构系列，因为它可以兼容不同的骨架。我们的架构对blocks and stages的内部结构不做要求。

我们在实验中实例化的网络使用了三种类型的residual blocks [17，41]。基本块将堆叠卷积与identity skip connection相结合。Bottleneck blocks通过1x1卷积降低维度来规范convolutional stack。Split blocks通过将通道分成若干个独立的路径（called the cardinality of the split），使特征多样化。在这项工作中，我们将bottleneck blocks 和Split blocks的输出通道和中间通道数量的比例减少了一半，the cardinality of our split blocks is 32。这些块的具体细节请参考引用的论文。

blocks的输出通道和中间通道数量的比例减少了一半，the cardinality of our split blocks is 32。这些块的具体细节请参考引用的论文。

在这里插入图片描述

weixin_37958272

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
DLA

DLA视觉识别需要丰富的表现形式，从低到高，从小到大，从细到粗的分辨率。即使在一个卷积网络中，一个单独的层是不够的：复合和聚合这些表示可以改进对what and where的推断。架构方面的工作正在探索网络主干的许多方面，设计更深层或更广的架构，但如何最好地聚合整个网络中的层和块值得进一步关注。虽然已经加入了skip connections来结合层，但这些连接本身就很 “浅”，只能通过简单的一步操作来融合.我们用更深的聚合来增强标准架构，以更好地融合各层信息。我们的深层聚合结构对特征层次进行迭代和分层合并
复制链接

扫一扫