ABD-Net: AttentivebutDiversePersonRe-Identification论文阅读

Paper:https://arxiv.org/abs/1908.01114

Code:https://github.com/TAMU-VITA/ABD-Net

摘要:注意力机制已经被证实可以有效的应用在行人重识别领域。然而,利用注意力机制学习到的特征通常是相关的和不具有多样性的。我们通过提出一个专注又多样化的网络(ABD-Net)来说明注意力机制和多样性的互补力量。ABD-Net通过在网络中无缝的嵌入注意力模块和多样性规则化,来学习具有代表性、健壮性和更具鉴别力的特性。具体来说, 我们介绍了一对互补的注意力模块,分别关注于通道聚合和位置感知。然后,我们插入一个新的正交约束,有效的促进隐藏激活和权重的多样性。通过消融性试验,我们验证了注意力和多样性方法均有助于ABD-Net的性能提升。通过在公开数据集上试验,我们的算法实现了SOTA。

 

知识点解析:

1,注意力机制:基于通道维和空间维

    a:基于通道维的注意力机制:众所周知,经过训练的CNN分类器中的高级卷积信道是语义相关的,并且通常具有分类选择性。在Re-ID研究中,我们假设高层次的通道也是分组的,即一些通道共享相似的上下文语义,并且彼此之间的关联性更强。Channel  Attention Module(CAM)被设计用来对那些语义相似的通道进行分组和聚合。

                     

假设输入的特征图A\epsilon R^{C\ast H\ast W},其中C、H和W分别代表特征图的通道数以及高和宽。得到通道关联矩阵X\epsilon R^{C\ast C},方程如下:

x_{ij} = \frac{exp\left ( A_{i} \cdot A_{j}\right )}{\sum\left ( A_{i} \cdot A_{j}\right ) } j\epsilon \left ( 1~C \right )。其中x_{ij}表示通道i和j之间的关系。最终输出的特征E的计算方式为:E_{i} = \gamma * \sum_{j=1}^{C}\left ( x_{ij}A_{j}} \right ) + A_{i}, i\epsilon \left ( 1, ..., C \right ), 其中\gamma是调整CAM权重的参数。

   b:相对于CAM, Position Attention Module (PAM)用于捕获和聚合空间域中语义相关的像素。输入的特征图A\epsilon R^{C\ast H\ast W}经过一个包含BN和ReLU的卷积层,得到B, C, D \epsilon \left ( C\ast H\ast W \right ), 然后得到像素关联矩阵S\epsilon \left ( N\ast N \right ),其中N = H\ast W

                                   

注意, S和X的维度是不同的,因为前者是计算N个像素之间的相关性,而前者是计算C个通道之间的相关性。PAM模块的最终输出特征图的CAM的类似。

 

2,多样性:正交正则化。

(此创新点来源于对SVDNet的思考)我们通过正交性来增强多样性,得到一个新的正交性正则化项。它同时适用于卷积层和全连接层的隐藏特征和权值。特征空间正交性正则化器(以下简称O.F.)是为了减少直接有利于匹配的特征之间的相关性。权值的正交正则化器鼓励滤波器的多样性和提高了学习能力。接下来,我们给出了特征空间的正交项的详细推到,而权值正交项也可以用类似的方法推到出来。对于一个特征图M\epsilon \left ( C\ast H\ast W \right ), 其中C、H和W分别代表特征图的通道数以及高和宽。首先将M重构成一个矩阵形式F\epsilon \left ( C\ast N \right ), N = H\ast W, N = H*W。当前许多的正交性方法,包括SVDNet的研究,都对权重的正交性进行了硬性约束,其计算依赖于SVD。然而, 在高维矩阵上计算奇异值分解是昂贵的,这也促进了soft正交性正则化器的发展。现有的许多soft正则化器将F的Gram矩阵近似成为一个单位矩阵,但这很难,因为F往往是不满秩的,而单位矩阵要求满秩,因此很难(但作者最后将F可视化的结果其实很近似单位阵)。什么是Gram矩阵?即矩阵分解为若干向量后,向量之间彼此做内积得到的偏心协方差矩阵。在此基础上,提出了一种基于谱归一化的正则化方法,有效的解决了这一问题。我们提出了一个新的选择,通过直接正则化FF^{T}的条件数来增强正交性:\beta * \left \| k\left ( F \right ) - 1 \right \|_{2}^{2}。其中\beta为系数,k\left ( F \right )为F的条件数,定义为最大和最小奇异值之比。常规求解k\left ( F \right )需要完整的SVD。为了使其在计算上更易于处理,我们将上式转化为谱增值差的正交性正则化。\beta \left \| \lambda _{1\left ( FF^{T} \right )} - \lambda _{2}\left ( FF^{T} \right ) \right \|_{2}^{2}, 其中\lambda _{1}\left ( FF^{T} \right )\lambda _{2}\left ( FF^{T} \right )分别表示\left ( FF^{T} \right )的最大和最小特征值。然而, 我们用自微分法得到梯度, 这个计算仍然包含昂贵的特征值分解。为了避开特征值分解,我们参考幂次迭代法来近似特征值。我们从随机初始化q开始,然后迭代执行下式:p\leftarrow Xq, q\leftarrow Xp, \lambda \left ( X \right )\leftarrow, 其中(没看懂)。这样,SVDO的计算就变得非常有效。

3,网络体系结构。

ABD-Net与最常见的特征提取骨架兼容,如ResNet、DenseNet和InceptionNet等。为了其他SOTA的方法对比,我们使用ResNet-50。我们在res_conv2的输出后添加了一个CAM和O.F.。将正则化特征图作为res_conv3的输入。接下来,在res_conv4块之后,网络并行的分成一个全局分支和一个注意力分支。我们在ResNet-50主干的所有conv层上应用O.W.,即从res_conv1到res_conv4和两个分支上的res_conv5。将两个分支的输出连接起来作为最终的特征向量。

   a:注意力分支:此分支使用了和ResNet-50相同的res_conv5层。将输出的特征图输入到一个降维层,并应用O.F.生成一个更小的特征图T_{a}。我们同时向CAM和PAM中输入T_{a}, 两者都有O.F.约束。两个关注模块的输出和输入T_{a}链接,并一起通过一个全局平均池化层,最终得到k_{a}维的特征向量。

b:全局分支:此分支使用了和ResNet-50类似的res_conv5层,只是没有进行降采样。将输出的特征图送进GAP和降维层,得到了一个k_{g}维的特征向量。除了注意力分支的特征,全局分支还保存了全局上下文信息。

 

Conclusion:

                                          

确实关注信息聚焦在变广了,但是背景信息是不是会被考虑。那就期待阿里的论文解读吧。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值