论文地址:https://arxiv.org/pdf/1908.09699.pdf
摘要
- ResNet + DenseNet混合连接
- 轻量级门结构
介绍
- ResNet (He et al. 2016) 引入了残差连接来实现每个微块的输入和输出特征的添加。
- DenseNet (Huang et al. 2017) 通过将跳过连接从添加更改为连接来保持密集连接。它们的特征聚合连接不仅可以鼓励特征重用,还可以缓解训练问题。
- 密集连通性对特征挖掘和探索的影响更大,但存在一定的冗余,
- 而残留连通性有助于通过参数共享机制进行有效的特征重用,从而导致冗余度低,但缺乏特征保留和探索的能力。
- 我们开发了一种带有嵌套聚合的混合连接(图 1),它通过密集连接促进特征流,用于所有先例模块(图 1 中的蓝色链接)产生的输出的全局通道级联和局部元素添加的残差连接模块内(图 1 中的红色链接)。
我们设计这种模式的主要动机是减少密集连接的冗余。随着网络深度的线性增加,跳过连接的数量和所需参数以O(n2)的速率增长,其中n表示密集连接下堆叠模块的数量。同时,早期的多余特性(贡献很少)以二次方式转移到后续模块。因此,减少冗余的一个简单方法是直接减少模块数量,但这会削弱特征的表现力,进而降低性能。因此,我们开发了一个新的模块,通过嵌入剩余连通性来辅助局部模块中的特征学习。在实验上,我们提出的密集连接下的模块数量可以比密集块中的经典模块数量少得多,但不会牺牲性能。
为了进一步适应混合连接,我们实例化了基本模块:
- 该模块包括一个挤压单元(图1中的单元1),用于将输入转换为紧凑的特征图,
- 一个多尺度激发单元(图1中的单元2),用于通过多核卷积进一步提取多尺度特征。
众所周知,卷积在局部邻域中建立像素关系,这导致对长程依赖关系的建模无效。为了充分解决这个问题,我们开发了一个更新门,从更多信息的多尺度特征中对全局上下文特征进行建模。此外,我们在剩余连接上定位遗忘门,以捕获通道依赖性,从而衰减单元1产生的重用特征。最后,将全局上下文特征添加到每个空间位置的重用特征图中,形成输出,这不仅可以促进有效的特征探索,而且在一定程度上保留了特征再利用的能力。此外,遗忘门和更新门都是轻量级的通用插件,可以集成到任何CNN中,开销可以忽略不计。
我们在三个高度竞争的图像分类数据集上进行了广泛的实验:CIFAR-10/100(Krizhevsky和Hinton,2009)和ImageNet(ILSVRC,2012)(Deng等人,2009)。在CIFAR数据集上,HCGNET的性能优于最先进的人工设计和自动搜索网络,但只需要极少的参数,例如。GHCGNet-A3比最具竞争力的NASNet-A(Zoph等人,2018年)获得更好的结果,结果为4。5×更少的参数。在ImageNet数据集上,它还以最小的复杂度在广泛使用的网络中一致地获得了最佳的准确性、可解释性、基于分类的鲁棒性以及对目标检测和分割的可转移性,例如。GHCGNet-B在具有类似复杂性的广泛任务中优于以前的SOTA AOGNet
相关工作
ResNet 和 DenseNet 的改进。
ResNeXt (Xie et al. 2017) 以更少的开销优于 ResNet,因为它在残差块中采用了 3×3 组卷积。 之后,由于参数和计算成本较低的特性,组卷积在高效的 CNN 设计中变得流行,包括我们的 HCGNet。 Wide ResNet(Zagoruyko 和 Komodakis 2016)表明,增加宽度同时减少残差网络的深度可以超越非常深的对应物,同时解决训练缓慢和特征重用减弱的问题。 通过表示多尺度特征并扩大残差块内的感受野 (RF),Res2Net (Gao et al. 2019) 在广泛的任务中优于其他主干。 多尺度信息已被广泛证明是提高性能的有效方法,我们的 HCGNet 还通过多分支卷积构造了多尺度特征。
众所周知,DenseNet 具有一定的冗余性,因此典型的做法是稀疏化。 LogDenseNet (Hu et al. 2017) 和 SparseNet (Zhu et al. 2018) 定期对所有先前的输出进行稀疏而不是完全聚合,这将连接数从整体拓扑中的线性变为对数。CongrenceNet(Huang等人,2018)采用学习组卷积,根据信道L1范数自动修剪传入特征图的不重要信道。然而,过度的稀疏化影响了集体学习的优越性。因此,我们仅减少密集连接下的模块数量以减少冗余,这在经验上比稀疏化更有效。
ResNet和DenseNet的组合。
为了享受这两种连接的优点并避免缺点,已经提出了许多组合。
- DPN采用双路径结构,通过剩余路径实现有效的特征重用,通过密集路径并行进行特征探索。
- MixNet混合了两种连接性,以实现具有更灵活位置和大小的特征聚合,此外,ResNet、DenseNet和DPN可以被视为MixNet的特殊情况。
- 最近提出的AOGNet利用AND-OR语法通过将特征映射解析为句子来生成CNN,其中AND节点表示通道连接,OR节点表示元素添加。结果表明,AOGNet中的组合和分层聚合比DPN中基于级联的方式更有效。此外,作为元运算的加法和级联也广泛应用于神经结构搜索领域,如NASNet、PNASNet(Liu等人2018)和AmoebaNet(Real等人2019)。大量实验表明,在我们的HCGNET中,嵌套的特征聚合方法表现最好。
注意力机制
注意已广泛应用于计算机视觉,例如图像分类(Wang et al. 2017)。
- SENet(Hu、Shen 和 Sun 2018)引入了一个轻量级门来捕获通道依赖,以重新缩放通道特征。
- SKNet (Li et al. 2019) 进一步采用动态内核选择注意力进行加权多尺度特征融合,其灵感来自 InceptionNets (Szegedy et al. 2017)。
- 除了通道之外,CBAM (Woo et al. 2018) 还构建了一个空间注意力图来重新校准空间特征。
- 为了捕获远程依赖,GCNet (Cao et al. 2019) 简化了非局部块 (Wang et al. 2018b) 以实现基于单个分支信息的查询无关上下文建模。
与它们在角色或机制上不同,我们构建了一个遗忘门来捕获通道依赖以衰减重用的特征,而更新门从多尺度信息中完全建模全局上下文特征。
重温ResNet和DenseNet
我们回顾了经典的ResNet和DenseNet及其各自的剩余连通性和稠密连通性,并进一步研究了它们的参数共享和特征学习机制。最后,我们分析了ResNet和DenseNet的总体效率。
参数共享:这块一定要看原文
参数学习:剩余块的最终输出是输入和新提取特征映射的元素级相加。此添加模式有助于高效的特征重用,而不会增加特征映射的大小,从而减少参数冗余。但一个潜在的事实是,过多的加法聚合可能会破坏特征表示,从而阻碍信息流,因此一些早期信息特征可能不可避免地丢失。此外,参数共享机制可能会损害探索新特征的能力。
随后提出的DenseNet开发了一种全局密集连通性,其中每个前向模块的输出特征映射直接流向所有后续模块。与按元素添加不同,输入和新提取的特征映射是通过沿通道串联而组合的。因此,密集连接性可以将早期特征映射转移到后续模块,从而保留所有先前的特征信息,并促进对现有特征的充分利用。此外,不同权重的模块对相同的特征进行集体学习,可以促进有效的特征探索。
……
懒了,直接把我自己做的ppt截上来记录一下 😄