Article Analysis (AA): Alternately Updated Clique

Convolutional Neural Networks with Alternately Updated Clique

作者:Yibo Yang, Zhisheng Zhong,Tiancheng Shen, Zhouchen Lin


该文章是继DenseNet之后,又一次对网络结构调整。虽然同样是密集连接,但连接的方式不同。换句话说,结构的进一步改善带来性能的进一步提升。本文作为小博主研读该文章的结果。受博主知识上界限制,文中理解不充分之处在所难免,恭请批评指教。


阅读该文章的先修知识:DenseNet, Top-Down Attention, Channel-wise Attention, Bottleneck and compression.


摘要直译:

在深度网络中,强化信息流动有助于缓解训练难度和更高效的利用参数。在该论文中,作者提出一种交替更新团的卷积神经网络(convolutional nerual network architecture with alternately update clique, CliqueNet)。与之前的网络相比,CliqueNet中每个block所包含的所有层两两之间都存在前后向连接(如Fig.1所示)。CliqueNet拥有些独特的属性。每一个层既是输入也是同一block中其他所有层的输出,因此各层之间的信息流就会被放大。在传播过程中,最新更新的层与可再更新的更新过的层连结,且参数也是多次重用。这种递归反馈结构能够把更高级视觉信息带到低层来修正低层滤波器并实现空间注意力的效果。作者们分析了不同阶段产生的特征并观察到使用精修的特征可以带来更好的结果;也采用多尺度特征策略来有效的避免参数激增。在图片识别数据集上包括CIFAR-10, CIFAR-100, SVHN和ImageNet的实验展示了该模型用少量参数达到state-of-the-art的效果。



   Fig.1 CliqueNet结构图


网络结构分析:

本部分分析该文章中的第三部分--CliqueNet Architecture。

CliquNet结构中主要是两个部分,Clique Block(其内部层之间可交替更新精修特征)和多尺度特征(高效利用参数)

# Clique Block

在DenseNet[2]中,每一层是之前所有层的输出,又是所有后续层的输入;而在CliqueNet中,Block内每层之间互为输入输出(如Fig.2所示)。


Fig.2 含有四个层的Block示例

从上图的右上部,可以看出该Block中四个层之间两两互连。下面来说明图中各个箭头的意思。

01234各有一个单向箭头,这些箭头表示用输入层来初始化Block中所有的层。接着焦点放到上图中的左半边的左边的单向箭头,这些箭头表示每个更新过的层连结起来更新下一层。以上就表示Stage-I,相应的特征就是Stage-I feature。整个过程可有下图直观理解。


Fig. 3 Stage-I过程

在Stage-II,所有的层(除了顶层)都被连结起来以更新顶层,相应的各层参数也连结起来。第i(i>=1)个层在第k(k>=2)个循环中有以下公式表示


上式中“∗”表示卷积,W为参数, g为非线性激活函数。Stage-II过程图示为Fig. 2的底部的单向箭头,参数表示过程如下图(Fig. 4)。


Fig. 4 Stage-II过程

每个层总是能够从新近更新的层中接收到反馈信息。由于这种传播带来的Top-Down精修,模型实现了空间注意力机制的效果。

总得来说,以上循环反馈结构保证了Block中各层之间进行充分的信息交流,也就使得特征表示更为有效。

# Feature at Different Stages

基于# Clique Block的Stage-I和Stage-II,可以得到用注意力机制精修并且吸收了高级视觉信息的的Stage-II feature。论文中作者们采用的多尺度策略是:首先把各个Block的输入和Stage-II feature连结,再经过池化之后构成Block feature,最后所有的Block feature连结起来构成最终的final represent(如Fig.5中的蓝色框所示)。


Fig. 5 multi-scale feature strategy

用这种方法得到的final represent即为多尺度特征图,并且各个block的维度并没有激增。由于更高阶段显著增加计算量和模型复杂度,所以该论文的作者们仅考虑了前两个阶段。(Stage-III莫非是Block之间的花式link……)

该论文作者们在CIFAR-10上做了分析各阶段特征的实验。实验的网络配置是3个Blocks,每个Block含5个Layers,每个Layer都是36个Filters。实验的其他配置参考了DenseNet。以下Show文中的结果。


Fig. 6

# Attention transition

注意力机制通过调整特征图来弱化噪声和背景的影响。特别是channel-wise attention[3]再次校准了不同的滤波器,在防止过拟合的同时启发了新特征。在改论文中作者们将channel-wise attention用到在transition层(就是Fig. 5中灰色的Transition)。那么channel-wise attention的结构图就放一下。


Fig. 8 Squeeze and Excitation

# Bottleneck and compression

Bottleneck可以有效的降低参数数量,适合更深的网络和大规模的数据集(比如ImageNet)[4]。在该论文中,用1x1的kernel产生中间层,再用3x3的kernel产生顶层,其中中间层和顶层的滤波器个数都是一致的。

Compression[2]可以使模型更简洁。在该论文中,在Stage-II feature和输入层连结后使用了Compression,也即在池化之前多了一个卷积层(kernel 1x1)。通过Compression,feature map减少了一半。


The last but not least, code


参考文献

[1] Convolutional Neural Networks with Alternately Updated Clique. Here

[2] Densely Connected Convolutional Networks. Here

[3] Squeeze and Excitation Network. Here

[4] Wide Residual Network. Here

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值