Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation阅读笔记

最新推荐文章于 2021-12-19 16:27:22 发布

不知道叫啥好一点

最新推荐文章于 2021-12-19 16:27:22 发布

阅读量3.7k

点赞数 4

分类专栏：目标检测文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/A_A666/article/details/121162388

版权

目标检测专栏收录该内容

18 篇文章 2 订阅

订阅专栏

RLA阅读笔记

(一) Title

在这里插入图片描述
前言：对于循环网络，我们往往考虑的是融合不同时刻的输入信息，这个文章想到了循环网络同样可以用于不同layer之间信息的融合，并贡献到当前layer进行接下来的特征提取。本文关于引入RLA的故事讲述比较多，如果想直接看本文的工作，到5.3小节。
论文地址：https://arxiv.org/abs/2110.11852
代码地址：https://github.com/fangyanwen1106/RLANet

(二) Summary

研究背景

关于layer间信息传递的研究也有很多：Residual connections或者skip connections，使得当前层可以访问到之前的层，从而帮助深层网络梯度的反向传播。实际上网络学习到的特征是建立在较简单特性的layer，并不一定是当前层前面那一层。因此，在DenseNet中是将所有的层传递到当前层上(一个block里面)，，但是这种方式使得模型参数相对于层数呈二次增加，并且在提取特征上存在着高度冗余。

本文内容

本文进一步探讨了layer aggregation的问题,使得previous layer的信息能够更好地服务于current layer的特征提取。
通过引入recurrent layer aggregation(RLA),充分利用CNNs layers的顺序结构,帮助学习图像中的structural information.具体的做法是：

构建一个recurrent connection分支，实现对之前feature map information的信息的聚合，通过和卷积层的交互，实现聚合信息的传递。同时recurrent connection中隐藏层参数是共享的，并没有引入冗余参数。

性能表现

RLA模块能够在目前基于卷积的框架中实现，兼容ResNets,Xception,MobilNetV2,在图像分类，目标检测和示例分割任务中进行了大量的实验，对应的RLA-Net在目标检测任务上实现了2-3%的性能提升。

(三) Research Object

本文思路首先是希望将卷积同RNN结构结合起来，目前Transformer在CV中的表现很亮眼，怎么样能够很好地将RNN的思想引入到卷积中来我觉得是一个很值得思考的问题.

讲真的博主觉得如何给CNN赋能Transformer类似的作用是很具有研究价值的，这里所说的赋能我觉得并不是简单的拼接，也就是文中作者提到的之前的一些conv+rnn融合处理视频问题，rnn负责序列，cnn负责特征。而是使得CNN具备recurrent的能力，说实话我觉得本文的思路更是让我觉得很好的，因为rnn一开始是处理序列问题的，实际上是对序列输入而言的，这里是将cnn的layer看成了一个序列，实现对之前序列信息的融合，妙啊~，并且作者通过resnet这种layer aggregation，以及attention的形式来解释这样做，就很合理

然后这里本文将CNN的卷积得到特征图过程看成是一个序列的产生的过程，通过将前面层序列的信息融合汇集到当前层用于接下来的卷积计算，这里实际上考虑的是一个单帧图像的信息recurrent方式，这里博主觉得对于视频问题还可以考虑如何处理视频序列的特征信息融合，类似于TSM那种在帧间进行特征通道的平移的处理，将这个平移也用双向rnn来代替我觉得也能起到更好的作用，冲啊！兄弟们。

(四) Problem Statement

本文的主要问题就是怎么实现layer之间的recurrent信息传递，借助时间序列分析的一些方法构建了light-weighted RLA模块。

(五) Method

5.1 Layer Aggregation

正常卷积的计算过程是上一层的卷积feature map $x^{t-1}$ ->卷积运算-> $x^{t}$ ，而layer aggregation是在进行卷积运算之前增加之前层的信息。这里作者给出了两种解释：Layer Aggregation，另一种是multi-head masked self-attention.

首先对于Laryer Aggregation来说，卷积神经网络中输入为 $x^0$ ,对应t层的输出feature map为 $x^{t}$ ，整个CNN一种有 $L$ 层，假如说这个CNN模型具有layer之间信息的传递能力的话，从数学形式上来看就是：
$A^{t}=g^{t}\left(x^{t-1}, x^{t-2}, \ldots, x^{0}\right) \quad \text { and } \quad x^{t}=f^{t}\left(A^{t-1}, x^{t-1}\right)$
其中 $A^{t}$ 表示前面 $t - 1$ 层的信息的聚合，是通过 $g^t$ 对之前层特征feature map变换得来的， $f^t$ 是一个transformation用于得到当前层的feature map输出。

这里的函数符号可能会有一点儿乱，博主这边自己说明下：其中 $g^t$ 是第t层的聚合函数， $f^t$ 是第t层的特征图卷积函数。

接下来的话，将普通卷积，ResNet结构(卷积后聚合)以及DenseNet结构用上面统一的形式表述出来：
普通CNN结构的话,当前层feature map的表达式为
$A^{t}=0,x^{t}=f^{t}\left(x^{t-1}\right)$
相当于之前层的信息 $x^{l} \text {with } l<t-1$ 只能通过 $t - 1$ 层传递过来,

这种传递方式相比于通过 $A^t$ 聚合的方式为什么能够传递更有效的信息呢？我觉得这个应该是从梯度反向传播上能够更好地说明吧。

对于ResNet结构来说，是一种卷积后聚合的方式，从表现上来看跟卷积前聚合是不一样的。当前层feature map的表达式为：
$A^{t}=0,x^{t}=f^{t}\left(x^{t-1}\right)+x^{t-1}$
卷积后聚合，构建的是另一种聚合方式，这种后聚合方式和前聚合方式相比有什么区别呢？会不会在性能上有不同的表现呢？我们可以将 $x^{t-1}$ 看成是 $x^{t-2}$ 经过了前聚合后，进行卷积接着再进行后聚合，对应的表达式为：
$A^{t-1}=f_{t-1}(x^{t-2})+x^{t-2},x^{t}=f^{t}\left(A^{t-1}\right)+x^{t-1}$
这里我的一个想法就是，构建后聚合方式，对应的统一表达形式为：

$x^{t}=b^{t}\left(f^{t}\left(x^{t-1}\right), x^{t-2}, \ldots, x^{0}\right)$

另外,如果同时考虑前后聚合的话，对应的表达形式为：
$A^{t}=g^{t}\left(x^{t-1}, x^{t-2}, \ldots, x^{0}\right),x^{t}=b^{t}\left(f^{t}\left(x^{t-1},A^{t-1}\right), x^{t-2}, \ldots, x^{0}\right)$
但是这样来看的话，大概率是会存在冗余的。
作者这里给出了一个一种表示形式,不断递归到第一层上 $x^{t}=f^{t}\left(x^{t-1}\right)+x^{t-1}=f^{t}\left(x^{t-1}\right)+f^{t-1}\left(x^{t-2}\right)+x^{t-2}=x^{t}=\sum_{l=0}^{t-1} f^{l}\left(x^{l}\right)+x^{0}$ ,因此，对应着可以给出 $A^t$ 和 $x^t$ 的对应关系为：
$A^{t}=\sum_{l=0}^{t-1} f^{l}\left(x^{l}\right)+x^{0},x^{t}=A^{t-1}+f^{t-1}\left(x^{t-1}\right)$
对于DenseNet结构来说，首先引入几个假设，假定聚合函数是feature map变换后的线性组合：
$A^{t}=\sum_{l=0}^{t-1} g_{l}^{t}\left(x^{l}\right)$
其中第t层的聚合函数一共有t个，分别对应着相应层的feature map，而且有可能第t层的前t-1个函数同第t-1层的t-1个聚合函数是不相同的。但是这里假定第t层的前t-1个函数同第t-1层的t-1个聚合函数是相同的,也就是上式可以简化成 $A^{t}=\sum_{l=0}^{t-1} g_l\left(x^{l}\right)$
同时假定第t层的卷积运算是一个 $3\times3$ 的卷积。
接着再来看一个DenseNet层的表示方式为：
$x^{t}=\operatorname{Conv} 3^{t}\left[\operatorname{Conv} 1^{t}\left(\operatorname{Concat}\left(x^{0}, x^{1}, \ldots, x^{t-1}\right)\right)\right]$
这里我们可以将 $x^t$ 拆成两部分，首先对应的就是聚合部分的表示：
$\operatorname{Conv} 1^{t}\left(\operatorname{Concat}\left(x^{0}, x^{1}, \ldots, x^{t-1}\right)\right)=\sum_{l=0}^{t-1} \operatorname{Conv} 1_{l}^{t}\left(x^{l}\right)$

$x^{0}, x^{1}, \ldots, x^{t-1}$ 的通道数分别为 $c_{0}, c_{1}, \ldots, c_{t-1}$ ,对应着卷积 $\operatorname{Conv} 1^{t}$ 的通道channel数为 $\sum_{l=0}^{t-1}c_{l}$ ,当前卷积运算的话，输入大小为 $\sum_{l=0}^{t-1}c_{l} \times H \times W$ ,卷积核的size是 $\sum_{l=0}^{t-1}c_{l} \times 1 \times 1 \times out\_channel$ ,实际上相当于将卷积核拆成 $t$ 份,每一份的卷积大小为 $c_l \times 1 \times 1 \times out\_channel$ ,对应着的卷积核记作 $\operatorname{Conv} 1_{l}^{t}$ ,相当于将一个完整的卷积拆分成 $t$ 个。

此时,我们有 $A^t=\sum_{l=0}^{t-1} \operatorname{Conv} 1_{l}^{t}\left(x^{l}\right)$ ,这里引入我们之前的另一个假设,也就是聚合函数同当前在的层无关，即 $A^t=\sum_{l=0}^{t-1} \operatorname{Conv} 1_{l}\left(x^{l}\right)$ ，此时DenseNet的表示方式为：
$x^{t}=\operatorname{Conv} 3^{t}\left[A^{t-1}+\operatorname{Conv} 1_{t-1}\left(x^{t-1}\right)\right]$

接着对于multi-head masked self-attention的处理，相当于在卷积之前插入了一个multi-head masked self-attention的结构，用于聚合之前layer的信息：
$\text { Attention }^{t}=\text { Concat }\left(\text { head }_{0}^{t}, \ldots, \text { head }_{m-1}^{t}\right) \text { with head }_{i}^{t}=\sum_{l=0}^{t-1} s_{l, i}^{t} x^{l}, \text { for } i=1, \ldots, m$
从矩阵上来看,表达就是：
$\begin{bmatrix} \text { head }_{0}^{t}\\ \text { head }_{1}^{t}\\ \ldots\\ \text { head }_{m-1}^{t} \end{bmatrix}=\begin{bmatrix} s_{0, 0}^{t}& s_{0, 1}^{t}& \ldots&s_{0, t-1}^{t} \\ s_{1, 0}^{t}& s_{1, 1}^{t}& \ldots&s_{1, t-1}^{t} \\ \ldots& \ldots& \ldots& \ldots\\ s_{m-1, 0}^{t}& s_{m-1, 1}^{t}& \ldots&s_{m-1, t-1}^{t} \end{bmatrix}\times \begin{bmatrix} x^0\\ x^1\\ \ldots\\ x^{t-1} \end{bmatrix}$
得到的head特征用于后续的卷积运算当中。其中query，key和value都设置成了 $x^{t}$ 忘记了Transformer里面的Q,K,V是啥了, $s_{l, i}^{t}$ 表示相似度的度量， $m$ 表示multi heads的数量。
对应到DenseNet中的方式是：
$x^{t}=\operatorname{Conv} 3^{t}\left[\operatorname{Conv} 1^{t}\left(\operatorname{Concat}\left(x^{0}, x^{1}, \ldots, x^{t-1}\right)\right)\right]$
其中 $\operatorname{Conv} 1^{t}\left(\operatorname{Concat}\left(x^{0}, x^{1}, \ldots, x^{t-1}\right)\right)$ 的过程,假定前面的所有layer的输出通道数相同都是 $k$ (其实这里不同也没有多大问题，只不过按照原文表述罢了)，这里 $\operatorname{Conv} 1^{t}$ 对应的卷积核大小就是： $tk \times 1 \times 1 \times output\_channel(m)$ ,记作一个矩阵：
$\begin{bmatrix} W_{0, 0}^{t}& \ldots& W_{j, m-1}^{t}\\ \ldots& \ldots& \ldots\\ W_{tk-1, 0}^{t}& \ldots& W_{tk-1, m-1}^{t} \end{bmatrix}$
此时multi head attention表述中的 $\text { head }_{i}^{t}=\sum_{l, c} W_{j(l, c), i}^{t} x_{c}^{l}$ ，其中 $j (l, c) = l k + c$ ,相当于将上面的矩阵在横坐标上划分成t份，同时将layer特征展开来表述。但是作者指出目前存在的问题是将 $1\times1$ 的卷积换成 $3\times3$ 的卷积后，it will collapse。没太看懂collapse指的是什么，同时为什么换成 $3\times 3$ 之后会出现collapse呢？

这里给出了一个新的思路，就是layer aggregation和multihead attention之间具有一定的关联，是不是说的是我们可以通过layer aggregation的方式使得CNN具备Transformer的能力呢？如果说再结合上MLP进行一些工作呢？

5.2 在深层network中的Sequential结构

目前来看聚合函数的表示形式为 $A^{t}=g^{t}\left(x^{t-1}, x^{t-2}, \ldots, x^{0}\right)$ ,引入假设简化之后的聚合函数为 $A^{t}=\sum_{l=0}^{t-1} g_{l}^{t}\left(x^{l}\right)$ ,同样也相当复杂，作者指出这种DenseNet的结构往往存在着较多的冗余，考虑到layer之间是序列结构的关系，借助时间序列的思想来实现对聚合函数的进一步简化.这里又引入了之前的假设聚合函数 $g_{l}^{t}$ 同所在的层是没有关系的，也就是上标可以去掉，同时引入AR模型(autoregressive)
$x^{t}=\beta_{1} x^{t-1}+\ldots+\beta_{t-1} x^{1}+\beta_{t} x^{0}=\sum_{l=0}^{t-1} \beta_{t-l} x^{l}$
这里角标的顺序是为了同AR模型保持一致，AR模型的表示为：
$x^{t}=\sum_{l=1}^{\infty} \beta_{l} x^{t-l}+i^{t}$
其中 $i^{t}$ 表示加性噪声，AR模型在理论讨论中比较常见，实际使用中还是基于autoregressive moving average (ARMA)模型，ARMA(1,1)模型的表示为： $x^{t}=\beta x^{t-1}+i^{t}-\gamma i^{t-1}$ ,展开成 $\operatorname{AR}(\infty)$ 形式为:
$\begin{aligned} x^{t} &=\beta x^{t-1}+i^{t}-\gamma i^{t-1},i^{t-1}=x^{t-1}-\beta x^{t-2}+i^{t-2}\\ &=\beta x^{t-1}-\gamma\left(x^{t-1}-\beta x^{t-2}\right)+i^{t}-\gamma^{2} i^{t-2} \\ &=(\beta-\gamma)x^{t-1}+i^{t}+\gamma(\beta x^{t-2}-\gamma i^{t-2}),i^{t-2}=x^{t-2}-\beta x^{t-3}+i^{t-3}\\ &=\cdots\\ &=\sum_{l=1}^{\infty}(\beta-\gamma) \gamma^{l-1} x^{t-l}+i^{t} \end{aligned}$
受上面表述的启发,目前构建的一个更加parsimonious简洁的等式如下所示：
$h^{t}=\alpha x^{t-1}+\gamma h^{t-1} \quad \text { and } \quad x^{t}=\beta_{1} x^{t-1}+\beta_{2} h^{t-1}$
同时假定 $h^0=0$ ,通过递归可以又有：
$h^{t}=\sum_{l=1}^{t} \alpha \gamma^{l-1} x^{t-l},x^{t}=\beta_{1} x^{t-1}+\beta_{2} \alpha \sum_{l=1}^{t-1} \gamma^{l-1} x^{t-1-l}$
上式具有至多4个参数，并且 $h^t$ 的作用同 $i^t$ 是相同的，此外上面的式子也比较符合RNN的结构(说实话，RNN的结构已经忘记得差不多了)。

到这个地方我们再回顾下ResNet的Layer Aggregation的表示方式：
$x^{t}=\sum_{l=0}^{t-2} f^{l}\left(x^{l}\right)+x^{0}+f^{t-1}\left(x^{t-1}\right)$
从上式中可以看到 $x^t$ 和 $x^l$ 的关系是同 $x^l$ 所在的layer是有关系的(也就是从初始输入 $x^0$ 开始计数,计到当前的第 $l$ 层)，也就是 $x^t$ 是关于 $x^l$ 和其所在层 $l$ 的函数，这种方式作者在实验中记作Shared-Ordinal。
从时间序列的表示来看， $x^t$ 同 $x^{t-1-l}$ 的关系是 $\gamma^{l-1}$ 的关系，这里的 $l - 1$ 指的是 $x^t$ 同 $x^{t-1-l}$ 之间相差的层数。这种方式作者记作Shared-Lag从时间序列的角度考虑，貌似更加合理。因此作者这里在ResNet上进行了一个实验来对比。使用了一个100层的DenseNet-BC(k=12).同时使用ResNet构建Shared-Ordinal(正常的ResNet结构)以及Shared-Lag方式，并假设在第 $t$ 层的聚合函数同 $t$ 没有关系两个的聚合方式：
$\begin{aligned} (\text { Shared-Lag }) & x^{t}=\operatorname{Conv} 3^{t}\left(\operatorname{Conv} 1_{1}\left(x^{t-1}\right)+\cdots+\operatorname{Conv} 1_{t-1}\left(x^{1}\right)+\operatorname{Conv} 1_{0}^{t}\left(x^{0}\right)\right) \\ (\text { Shared-Ordinal }) & x^{t}=\operatorname{Conv} 3^{t}\left(\operatorname{Conv} 1_{t-1}\left(x^{t-1}\right)+\cdots+\operatorname{Conv} 1_{1}\left(x^{1}\right)+\operatorname{Conv} 1_{0}^{t}\left(x^{0}\right)\right) \end{aligned}$
对应的实验结果如下图所示：
通过共享 $1\times 1$ 卷积,也就是第t层的聚合函数同t没有关系。能够让参数数量减少25%,同时在精度上仅仅相差了0.5%。实际上这个地方说的是DenseNet相比于ResNet其实并没有提升太多。而且Shared-Lag和Shared-Ordinal两个实验结果上相差很少
接着作者通过对两种方式 $1\times1$ 卷积的权值进行可视化。

从上图来看，Shared-Lag的方式会使得 $x^t$ 同时间序列一样更多的关注到上一层的信息，并且快速衰减跟指数的方式很像。这里有没有可能出现先升高后降低(基于Attention)的构建方式呢？

5.3 结合上面的一些思考有了本文的RLA

借助时间序列的方式引入了RLA(recurrent layer aggregation)的机制：
$h^{t}=g^{t}\left(h^{t-1}, x^{t-1}\right) \quad \text { and } \quad x^{t}=f^{t}\left(h^{t-1}, x^{t-1}\right)$
其中 $h^t$ 表示从第 $0$ 层到第 $t - 1$ 层的聚合信息,通过考虑不同的 $g^t$ 实现形式可以有不同的RLA结构，可以使用conv,GRU,LSTM构建。然后这里的 $f^t$ 就是不同的CNN卷积形式。整个RLA的统一表示形式为:

具体来看的话，如下图所示，多种信息的构建形式：

整个更新的过程可以被实例化成
$h^{t}=g_{2}\left[g_{1}\left(y^{t}\right)+h^{t-1}\right] \quad \text { and } \quad x^{t}=y^{t}+x^{t-1}$
其中 $y^{t}=f_{1}^{t}\left[\operatorname{Concat}\left(h^{t-1}, x^{t-1}\right)\right]$ .关于结构上的一些更详细的设置如下其实从上面的图中也可以看出来。关于RLA的初始状态 $h^0$ 设置成0.

(六) Experiments

分类任务

使用CIFAR-10和CIFAR-100数据集分类误差降了一些，但是效果并不理想，没有想象中那样好.
使用ImageNet数据集

说实话，从实验结果上来看,RLA和ECA也没有差多少，但是可以互补。

目标检测

在慕白哦检测任务上的表现效果还可以,性能跟ECA差不多，但是能互补。回头试一下效果~

消融实验

-channel+12是在ResNet164的基础上增加了bottleneck结构的通道数。
ConvLSTM based RLA结构如下如所示:

Post-Activated RLA结构(更换了激活函数和卷积的顺序)

RLA通道数的消融实验

从实验结果上来看，不稳定。

(七) Conclusion

本文提出了一种轻量化的Laryer Aggregation方式，在主流的CNN上应用充分的说明了可行性，以及在不同任务下的改进。

(八) Notes

8.1 CNN-RNN混合模型的研究

作者提出现有的CNN-RNN混合模型混合程度不够，将RNN和CNN当成两个block，比如visual description问题中，将视频图片到CNNs的序列输出给到RNN中；对于visual super-resolution中，使用convolutional LSTMs在时序上融合帧间的依赖，并将输出给到CNNs。从任务上来看，CNN-RNN混合模型主要是解决视频问题，RNN的主要作用是混合帧间信息。信息的聚合是在前面帧的信息上。而本文提出的RNN-CNN聚合方式的混合应用于单帧图像特征提取的过程，通过RNN融合Laryer之间的信息，用于后面的特征信息传递。博主这里的问题是相比于Transform结构的detection网络这里的异同是什么？在效果上有什么差异呢？从实验结果上并没有看到和Transformer detection方法的比较。

8.2 带有branching path的CNN模型

带有RLA模块的CNN框架和具有多个分支的结构具有很多相似性，比如Inception Networks或者是带有Grouped convolutions，AlexNet以及ResNeXt，但是主要的差异的话就是RLA模块along depth上有共享的卷积kernels(这里博主的理解就是对于每一层的卷积，是通过RNN交互之后得到的，在RNN模型参数上是共享的,必定RLA要尝试下能够带来多大的性能提升)