Convolutional Neural Networks with Alternately Updated Clique

摘要

    改善深层网络中的信息流有助于缓解训练难度并更有效地利用参数。这篇文章提出了一个新的卷积神经网络架构与交替更新的派系(CliqueNet)。同一块中的任何两层之间都有前向和后向连接,这些图层被构造为一个循环并交替更新。

    CliqueNet有一些独特的属性:对于每一层来说,它既是同一块中任何其他层的输入和输出,也是层间信息流最大化的结果。在传播过程中,新更新的图层被连接起来以重新更新之前更新的图层,参数可以重复使用多次。这种经常性的反馈结构能够将更高层次的视觉信息带回来改进低级滤波器并实现空间关注。我们分析不同阶段生成的特征,并观察使用精化特征可以获得更好的结果。我们采用多尺度特征策略,有效避免了参数的逐步增长。包括CIFAR-10,CIFAR-100,SVHN和Imagnet在内的图像识别数据集的实验表明,我们提出的模型能够以更少的参数获得最先进的性能1。

1.介绍

    受到循环结构和注意力机制的启发,在本研究中,提出了一种新的卷积神经网络架构,它具有交替更新的特点(CliqueNet)。与之前的网络结构相比,同一块中的任何两层之间都有前向和反馈连接。如图1所示,Clique Block中的图层被构建为一个块并交替更新。具体来说,先前的几个层被连接起来更新下一个层,之后,新更新的层被连接起来以重新更新先前的层,以便信息流和反馈机制可以被最大化。块中的每个层都是另一个层的输入和输出,这意味着它们比DenseNets [17]更密集地连接。采用多尺度特征策略来组合具有不同地图尺寸的块特征的最终表示。


    CliqueNet架构具有一些独特的属性。直觉告诉我们参数要求苛刻,因为给定一个n层的块,DenseNet [17]需要Cn2参数组,而我们需要A2n(C和A分别表示组合运算符和置换运算符)。然而,随着深度的增加,DenseNet中的滤波器线性增加[5],这可能导致参数的快速增长。在我们的体系结构中,只有每个块中的Stage-II特征才被输入到下一个块中。事实证明,这是一个更具参数效率的方式。另外,传统的神经网络添加了一个新的图层及其相应的参数。至于CliqueNet,块中各层之间的权重在传播过程中保持循环。这些图层可以交替更新多次,以便通过固定数量的参数获得更深的表示空间。
    由于循环结构和反馈机制的结合,CliqueNet还表现出强大的表示学习能力。在每个Clique Block中,前向和反馈密集连接。信息流程被最大化,并且特征映射通过注意被反复提炼。该网络架构可以抑制背景和噪声的激活,并在不采用数据增强的情况下实现竞争结果。本研究的贡献如下:
•提出了一种新的卷积神经网络架构,称为CliqueNet,它在同一个区块的任何两层之间包含正向和反向连接。构建为循环的层交替更新。结合周期性结构和注意机制的CliqueNet能够最大化信息流并实现特征细化。
•尽管有额外的反馈连接,我们采用了多尺度特征策略,有效地避免了参数的逐步增加。

•我们对包括CIFAR-10,CIFAR-100,SVHN和ImaNet在内的四个基准数据集进行实验,以证明我们模型的优越性。

2.相关工作

    目前已经提出了许多具有大型模型容量的深度网络。为拓宽网络,GoogLeNet [36]中的Inception模块将不同地图大小的特征融合在一起以构建多尺度表示。多列[6]网络和Deeply-Fused网络[38]也使用融合策略,并具有广泛的网络结构。广泛的残留网络[41]增加了宽度,减少了深度以提高性能,而FractalNet [25]同时加深和拓宽。但是,简单地扩大网络很容易消耗更多的运行时间和内存[44]。为了深化网络,跳过连接或快捷路径是广泛采用的策略,以减轻网络培训[13,34]。在[18]中,它表明ResNets中的一些层是可有可无的,并导致参数冗余。所以他们随机放下一部分图层以减轻训练并获得更好的表现。为了进一步增加信息流,DenseNets [17]通过连接操作替换残差块中的身份映射,以便在保持旧功能重用的同时加强新的功能学习。根据这一观点,双路径网络(DPN)[5]被提出来结合剩余路径和密集连接路径的优点。

    残差路径和密集连接路径都对应于反复传播,且它们的成功归因于反复结构和迭代改进[27,11,21]。将循环连接纳入CNN的研究在对象识别[26],场景解析[31]和其他一些任务中也表现出优势。 CliqueNet与这些结构的不同之处在于迭代机制存在于传播的每一步中,而不是仅在相邻层之间或从顶层到底层;块中的所有图层都参与循环,以便过滤器得到充分通信,块同时扮演信息载体和信息载体和精炼的角色。

    最近的研究已经将注意力机制作为一种有效的技术来加强一些以目标为特征的神经元,并且提高结果的性能。它在许多应用中被证明是富有成效的,包括图像识别[37,8],图像字幕[3],图像文本匹配[29]和显着性检测[24]。一般而言,视觉注意力可以通过制定优化问题来实现[1],在空间上或通道上对激活进行加权[3,16],并引入反馈连接[39,35,42]。在[42]中,该模型通过反馈连接为更准确的预测做出连续的决定。下一个决定的输入是基于最后决定的输出。实验表明,自顶向下的传播能够提炼更低层次的特征,并改善分类性能[35],特别是对于噪声和遮挡的数据集[39,28]。但如何制定适当的关注机制,加强层层监督仍有待进一步探索。

    还有一些研究设计了与递归神经网络相关的注意力机制[28,24,8]。最近的一份报告[2]试图提出一个loopy网络,但它只是重复跳过连接,并没有使层交流。 [4,45]采用的逻辑推理与我们的工作有着相似的动机。但是,它们并不包含反馈连接,这对于功能优化很重要。由于交替传播,CliqueNet可以实现真正的循环。尽管交替更新一直是优化理论中的一个重要方法[9],但它尚未引入到深度学习领域。根据最佳知识,我们是第一个使用更新的层交替重新更新以前的图层,并且这些图层构建一个循环来循环多次。

 3. CliqueNet架构

    CliqueNet体系结构有两个主要组成部分,即交替更新派系(Clique Block)以实现特性优化的块,以及促进参数效率的多尺度特性策略。

3.1.派系块

为了最大化层间的信息流,我们设计了Clique Block。除输入节点外,同一块中的任何两层都是双向连接的。与密集块[17]相比,每层都是前面所有层的输出以及所有后续层的输入,Clique Block使每层都成为任何其他层的输入和输出。具有5层的Clique块的传播如表1所示。


    在第一阶段,输入层(X0)通过单向连接初始化该块中的所有层。每个更新的层被连接起来以更新下一层。从第二阶段开始,各层开始交替更新。除了要更新的顶层以外的所有层都被连接为底层,并且它们的相应参数也被连接起来。因此,第k(k≥2)循环中的第i(i≥1)层可以表示为:



其中*表示带参数W的卷积运算,g是非线性激活函数。 Wij不断在不同阶段重复使用。 每个图层将始终从最近更新的图层接收反馈信息。 由于每次传播带来的自上而下的细化,它实现了空间关注机制。 这种经常性的反馈结构确保通信在块中的所有层之间最大化。

3.2.不同阶段的特征

    我们分析不同阶段产生的特征,并采用多尺度特征策略来避免参数的快速增加。
    第一阶段用于初始化块中的所有图层,自第二阶段开始,这些图层会被重复提炼。鉴于第二阶段功能的细化得到了关注并吸收了更多的高级视觉信息,我们将第二阶段功能与每个功能块中的输入层连接在一起作为功能块,然后在全局池化后访问丢失功能。只有Stage-II特征作为输入层X0输入到下一个块中;如图2所示。这样,最终的表示由多尺度特征映射表征,并且每个块中的维度不会逐渐增加。因为更高阶段的传播会带来更多的计算成本并增加模型的复杂性,所以我们只考虑前两个阶段。
    为了分析不同阶段产生的特征,使用不同版本的CliqueNets对CIFAR-10数据集进行了实验(没有数据增加)。如表2所示,CliqueNet(I + I)仅考虑阶段I功能。 CliqueNet(I + II)使用Stage-I功能和输入层作为块功能来访问丢失功能,但将Stage-II功能转移到下一个块中。 CliqueNet(II + II)采用我们上述的策略。他们都有3块,每块5层。每个图层包含36个过滤器。实验设置如下[17]。主要结果如图3所示。发现第二阶段功能的引入的确带来了更好的结果。我们采用CliqueNet(II + II)结构进行以下实验。



3.3.额外技术

       除了上面提到的结构,还考虑一些技术来帮助加强模型并改进现有技术水平。在实验部分中,通过比较采用这些额外的技术与否进行实验来展示我们模型的有效性。

    注意力转移。 CliqueNet包含反馈连接,以使用更高级别的视觉信息来优化较低级别的激活。注意机制在空间上加权特征映射以减弱噪声和背景。在CliqueNet中,我们按照[16]中提出的方法,将过渡层中的渠道式注意机制纳入其中。如图4所示,过渡卷积后的滤波器是全局平均值。随后是两个完全连接(FC)层。第一个FC层具有一半的滤波器,并由Relu功能激活。第二个FC层具有相同数量的过滤器,并由Sigmoid函数激活,以便将激活缩放为[0,1],并通过逐次乘法作用于输入层。与在每个残留层设置此模块的[16]不同,我们只将它添加到转换层,以便将滤波器调整到下一个块。

    瓶颈和压缩。瓶颈是减少参数数量并提供扩大模型容量的潜力的有效方法。据猜测[41],瓶颈架构适合于更深层的网络和像ImageNet这样的大型数据集,最近的研究已经包含了获得更好性能的瓶颈[13,17,37,5]。所以我们在我们的大型模型中引入了瓶颈。每个块中的3×3卷积核被1×1代替,并产生一个中间层,然后3×3卷积层产生顶层。中间层和顶层包含相同数量的特征地图。压缩是[17]中采用的另一种工具,可以使模型更紧凑。我们只压缩访问损失函数的功能,即将Stage-II与输入层连接在一起,而不是压缩过渡层中的过滤器数量。具有压缩的模型在全局共享之前具有1×1内核大小的额外卷积层。它生成一半数量的滤波器以增强模型的紧凑性并将最终特征的维度保持在适当的范围内。


3.4.实验

    在实验中,我们在没有上述额外技术的基准数据集上测试我们的模型,以显示CliqueNet的有效性,并进一步提高了他们的最新性能。有两个结构参数,即所有块中的层数总和T和每层滤波器数量k。对于没有瓶颈的模型,每个块中的卷积层都有3×3的内核大小,并填充一个像素,以保持特征图大小相同。块由过渡层链接,其中1×1内核大小的卷积层后面是2×2平均池。所有的卷积都是由三个连续操作组成的单元完成的:批量归一化[20],Relu和卷积。阶段II特征与来自所有块的输入层在全局汇集之后连接,并且以具有softmax的完全连接层结束。

    对于CIFAR和SVHN的实验,总共有三个块,其中特征映射大小分别为32×32,16×16和8×8。在进入第一个块之前,输入图像通过3×3卷积,输出通道设置为64,作为第一个块的输入层(X0)。至于ImageNet,我们使用四个模块进行瓶颈和压缩,并比较我们的结果和没有注意过渡。初始转换在224×224输入图像上具有7×7卷积,步幅2和3×3最大值与步幅2合并。我们在ImageNet上的四种网络结构如表3所示。



4.实验

    我们在基准分类数据集上评估CliqueNet,包括CIFAR-10,CIFAR-100,SVHN和ImNet,并将我们的结果与业界目前水准进行比较。

4.1.数据集和培训细节

 CIFAR。 

CIFAR-10和CIFAR-100数据集[22]都是32×32彩色图像。 CIFAR-10数据集由10个类中的60,000个图像组成,每个类中包含6000个图像。有50,000张图像用于训练,10,000张图像用于测试。 CIFAR-100数据集类似于CIFAR-10,但有100个类别,每个类别包含600个图像。对于数据归一化,我们通过减去均值并除以标准偏差来预处理数据集。

SVHN。

街景房屋号码(SVHN)[30]数据集包含从Google街景视图中裁剪的房屋号码的32×32彩色图像。训练集中有73,257张图像,测试集中有26,032张图像和531,131张额外训练图像。按照常规做法[41,18,25,17],我们使用所有训练样本而不进行增强,并将图像分割为255进行归一化。我们报告测试集中的最低错误率。

ImageNet。

我们还对ILSVRC 2012数据集[7]进行了实验,该数据集包含120万个训练图像,50,000个验证图像和100,000个1,000级的测试图像。在[13,17]之后,我们采用了标准的数据增强的训练集。从图像或其水平随机采样224×224作物

翻转。

图像使用平均值和标准偏差归一化为[0,1]。我们报告验证集上的单作物错误率。

训练细节。

为了公平比较,我们不需要太多的超参数调整,我们的大部分训练策略都是遵循[13,17]。我们使用0.9 Nesterov动量和10-4重量衰减的随机梯度下降(SGD)来训练我们的模型。参数根据[12]初始化,完全连接层的权重使用Xavier初始化[10]。对于CIFAR和SVHN,我们分别培训300个时期和40个时期,批量为64.学习率初始设定为0.1,在培训程序的50%和75%时除以10。与ImageNet相比,CIFAR和SVHN上的实验并不采用任何数据增强,并且在[17]之后的每个卷积层之后添加丢弃层[33],丢弃率为0.2。对于ImageNet,我们训练我们的模型100个时期,并在30,60和90年代将学习速率降低0.1。由于我们只有4个GPU的服务器并受GPU内存的限制,因此我们的ImageNet上的模型的批量大小为160 ,而不是大多数研究所做的那样。

4.2.CIFAR和SVHN的结果

    我们在CIFAR和SVHN上的实验结果如表4所示。表中的第一部分包括DenseNets之前的一些方法和一些其他也包含反馈连接或注意机制的研究。第二和第三部分将CliqueNets与DenseNets比较时,他们都没有额外的技术。最后两部分用额外的技术展示了情况。最好的结果和第二好的结果分别用红色粗体和粗体标记。

    无其他技术。前三部分显示,当不考虑额外的技术时,CliqueNets在CIFAR-10,CIFAR-100和SVHN上的性能优于以前的大多数方法,参数显着减少。因为CliqueNet中的图层可以被重新更新,但是每个周期中的结构特征,CliqueNet的深度比其他模型浅得多。对于我们最小的CliqueNet(36-12)模型,(代表k = 36,T = 12),每个块包含4层。它与DenseNet(12-36)在每个块中具有相同数量的过滤器144,但是在CIFAR-10上将错误率从7%降低到5.93%,参数比其对应的DenseNet(12-36 )。虽然随机深度的ResNet [18]在SVHN上的1.7M参数比CliqueNet(36-12)的性能稍好,但我们的模型大大降低了CIFAR-10和CIFAR-100的误码率。随着模型容量越来越大,我们发现CliqieNets的表现越来越好,没有过度拟合。至于我们的CliqueNet(80-15)模型,它已经在三个数据集上实现了最新的技术水平,甚至超过了在CIFAR-10和SVHN上使用额外技术的DenseNets。它仅有6.94M参数,其是四分之一的DenseNet(24-96),具有27.2M的参数,以及一半的DenseNet(24-246)使用瓶颈和压缩以及15.3M的参数。

    有其他技术的技术。由于其反复传播的反馈传播,CliqueNets实现了空间注意机制。当通道注意力的武装,他们获得改善的表现。这由CliqueNet(36-12)在注意力转换中得到证明。它在CIFAR-10和CIFAR-100上有更好的结果,参数略有更多。通过使模型更加紧凑,压缩具有相同的效果。它表明,注意力转换与压缩兼容。具有注意力转换和压缩的CliqueNet(36-12)导致比原始版本和原始版本更好的结果,只有注意力转换或压缩。与其对应的DenseNet(12-36)相比,CIFAR-10的误差率为1.39%,CIFAR-100的误差率为2%,SVHN的误差率为0.1%,只有0.08M的参数。具有注意力转换和压缩的CliqueNet(80-15)也比原始版本有所改进,并且将SVHN的技术水平提高到了使用8M参数的1.53%,而SVHN之前的最佳结果为1.59%由DenseNet(24-96)执行的参数是参数的三倍。瓶颈架构可有效保存参数,而我们最大的带瓶颈模型CliqueNet(150-15)进一步提高了CIFAR-10和CIFAR-100的性能,但适度地提高了参数和计算成本。

4.3.在ImageNet上的结果

    由于计算资源有限,只能在4个GPU中传播一批,因此我们在ImageNet上使用160的批量,而在大多数研究中使用的是批量。虽然较小的批量会削弱相同时代的性能培训,但CliqueNets可以在ImageNet上使用ResNets或DenseNets实现可比较的结果;见表5.这表明我们提出的模型也可以应用于大型数据集。


    CliqueNet-S0 *和CliqueNet-S1 *只有其一半参数优于ResNet-18和ResNet-34。较大的模型也达到了ResNets和DenseNets所执行的先进水平。当注意力转换被考虑时,CliqueNet包含空间注意力和注意力,并且相应地具有更好的表现。与其原始版本CliqueNet-S2 *和CliqueNet-S3 *相比,CliqueNet-S2和CliqueNet-S3的前1次错误率都降低了1%左右,没有注意力过渡。


4.4.进一步讨论

    为了更好地分析CliqueNet中的循环反馈机制和多尺度特征策略,我们基于预训练模型对特征图和参数进行可视化并提供进一步的理解。

参数效率。尽管CliqueNet在同一块中的任何两层之间具有双向连接,这将在块中引入更多参数,但我们发现CliqueNet实现了CIFAR和SVHN数据集的最新技术水平,参数比DenseNets少得多。在ImageNet上,使用较小批量的CliqueNet与ResNets相比也具有参数效率。这主要是由于多尺度特征策略仅将第二阶段特征转移到下一个块中,而不是将特征映射堆叠到更深层,这可能导致参数逐渐增加。在图5中,我们将预先训练好的CliqueNet和DenseNet中的层之间的权重可视化。由于我们的反馈连接,Clique Block的颜色像素覆盖整个热图。注意密集块中的热点沿着对角线集中。 [17]也报道了类似的结果。观察表明,只有相邻层在DenseNet中具有很强的依赖性,而其前向堆栈模式实际上是参数要求较高的。这有助于解释CliqueNet中的参数和触发器效率,其中信息流在每个块中均匀分布。功能细化。在CliqueNet中,图层交替更新,以便彼此监督。此外,在第二阶段,功能地图总是从更新的过滤器中接收更高级别的信息。这种空间关注机制使得客户反复提炼,并且能够抑制图像的噪音或背景,并将更多的激活集中在表征目标对象的区域。为了测试效果,我们按照[43]中的方法对特征图进行了可视化。如图6所示,我们从ImageNet验证集中选择了三幅复杂背景的输入图像,并分别在Stage-I和Stage-II中分别以最高的平均激活幅度显示它们的特征映射。据观察,与阶段I相比,阶段II中的特征地图减少了周围物体的激活并将更多的注意力集中在目标区域上。这与表2中的结论是一致的,即阶段II特征更具有区别性并且导致更好的表现。


5.结论

    在这项研究中,我们引入了一种新的卷积神经网络结构,其中一个块中的层被构建为一个团,并且以循环方式交替更新。任何层都是同一个块中另一个层的输入和输出,这样信息流就会最大化。参数在传播过程中流通,并能够产生多个阶段特征。我们分析了不同阶段的特征,并观察到阶段II特征的引入有助于抑制噪音并带来更好的性能。多尺度特征策略有效地避免了参数的递增。实验表明,我们提出的架构能够以较少的参数实现艺术状态,特别是在不使用数据增强的情况下,在CIFAR和SVHN上更是如此。
    与以前的网络不同,CliqueNet利用固定数量的参数来获得更深的表示空间,并结合反馈反馈来实现注意机制。这种拓扑结构为未来工作中的其他计算机视觉任务提供了开发模型的潜力,如语义分割,显着物体检测,图像字幕等。


  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值