ABD-Net: AttentivebutDiversePersonRe-Identiﬁcation论文阅读

最新推荐文章于 2020-09-14 20:09:47 发布

不甘现状的咸鱼却没办法

最新推荐文章于 2020-09-14 20:09:47 发布

阅读量1.4k

点赞数

分类专栏： Person Re-ID 文章标签： Re-ID ABD-Net

本文链接：https://blog.csdn.net/qq_36167072/article/details/104380140

版权

Person Re-ID 专栏收录该内容

15 篇文章 5 订阅

订阅专栏

Paper：https://arxiv.org/abs/1908.01114

Code：https://github.com/TAMU-VITA/ABD-Net

摘要：注意力机制已经被证实可以有效的应用在行人重识别领域。然而，利用注意力机制学习到的特征通常是相关的和不具有多样性的。我们通过提出一个专注又多样化的网络（ABD-Net）来说明注意力机制和多样性的互补力量。ABD-Net通过在网络中无缝的嵌入注意力模块和多样性规则化，来学习具有代表性、健壮性和更具鉴别力的特性。具体来说，我们介绍了一对互补的注意力模块，分别关注于通道聚合和位置感知。然后，我们插入一个新的正交约束，有效的促进隐藏激活和权重的多样性。通过消融性试验，我们验证了注意力和多样性方法均有助于ABD-Net的性能提升。通过在公开数据集上试验，我们的算法实现了SOTA。

知识点解析：

1，注意力机制：基于通道维和空间维

a：基于通道维的注意力机制：众所周知，经过训练的CNN分类器中的高级卷积信道是语义相关的，并且通常具有分类选择性。在Re-ID研究中，我们假设高层次的通道也是分组的，即一些通道共享相似的上下文语义，并且彼此之间的关联性更强。Channel Attention Module（CAM）被设计用来对那些语义相似的通道进行分组和聚合。

假设输入的特征图 $A\epsilon R^{C\ast H\ast W}$ ，其中C、H和W分别代表特征图的通道数以及高和宽。得到通道关联矩阵 $X\epsilon R^{C\ast C}$ ，方程如下：

$x_{ij} = \frac{exp\left ( A_{i} \cdot A_{j}\right )}{\sum\left ( A_{i} \cdot A_{j}\right ) } j\epsilon \left ( 1~C \right )$ 。其中 $x_{ij}$ 表示通道i和j之间的关系。最终输出的特征E的计算方式为： $E_{i} = \gamma * \sum_{j=1}^{C}\left ( x_{ij}A_{j}} \right ) + A_{i}, i\epsilon \left ( 1, ..., C \right )$ ，其中 $\gamma$ 是调整CAM权重的参数。

b：相对于CAM， Position Attention Module (PAM)用于捕获和聚合空间域中语义相关的像素。输入的特征图 $A\epsilon R^{C\ast H\ast W}$ 经过一个包含BN和ReLU的卷积层，得到B， C， D $\epsilon \left ( C\ast H\ast W \right )$ ，然后得到像素关联矩阵 $S\epsilon \left ( N\ast N \right )$ ，其中 $N = H\ast W$ 。

注意， S和X的维度是不同的，因为前者是计算N个像素之间的相关性，而前者是计算C个通道之间的相关性。PAM模块的最终输出特征图的CAM的类似。

2，多样性：正交正则化。

（此创新点来源于对SVDNet的思考）我们通过正交性来增强多样性，得到一个新的正交性正则化项。它同时适用于卷积层和全连接层的隐藏特征和权值。特征空间正交性正则化器(以下简称O.F.)是为了减少直接有利于匹配的特征之间的相关性。权值的正交正则化器鼓励滤波器的多样性和提高了学习能力。接下来，我们给出了特征空间的正交项的详细推到，而权值正交项也可以用类似的方法推到出来。对于一个特征图 $M\epsilon \left ( C\ast H\ast W \right )$ ，其中C、H和W分别代表特征图的通道数以及高和宽。首先将M重构成一个矩阵形式 $F\epsilon \left ( C\ast N \right )， N = H\ast W$ ， N = H*W。当前许多的正交性方法，包括SVDNet的研究，都对权重的正交性进行了硬性约束，其计算依赖于SVD。然而，在高维矩阵上计算奇异值分解是昂贵的，这也促进了soft正交性正则化器的发展。现有的许多soft正则化器将F的Gram矩阵近似成为一个单位矩阵，但这很难，因为F往往是不满秩的，而单位矩阵要求满秩，因此很难(但作者最后将F可视化的结果其实很近似单位阵)。什么是Gram矩阵？即矩阵分解为若干向量后，向量之间彼此做内积得到的偏心协方差矩阵。在此基础上，提出了一种基于谱归一化的正则化方法，有效的解决了这一问题。我们提出了一个新的选择，通过直接正则化 $FF^{T}$ 的条件数来增强正交性： $\beta * \left \| k\left ( F \right ) - 1 \right \|_{2}^{2}$ 。其中 $\beta$ 为系数， $k\left ( F \right )$ 为F的条件数，定义为最大和最小奇异值之比。常规求解 $k\left ( F \right )$ 需要完整的SVD。为了使其在计算上更易于处理，我们将上式转化为谱增值差的正交性正则化。 $\beta \left \| \lambda _{1\left ( FF^{T} \right )} - \lambda _{2}\left ( FF^{T} \right ) \right \|_{2}^{2}$ ，其中 $\lambda _{1}\left ( FF^{T} \right )$ 和 $\lambda _{2}\left ( FF^{T} \right )$ 分别表示 $\left ( FF^{T} \right )$ 的最大和最小特征值。然而，我们用自微分法得到梯度，这个计算仍然包含昂贵的特征值分解。为了避开特征值分解，我们参考幂次迭代法来近似特征值。我们从随机初始化开始，然后迭代执行下式： $p\leftarrow Xq, q\leftarrow Xp, \lambda \left ( X \right )\leftarrow$ ，其中（没看懂）。这样，SVDO的计算就变得非常有效。

3，网络体系结构。

ABD-Net与最常见的特征提取骨架兼容，如ResNet、DenseNet和InceptionNet等。为了其他SOTA的方法对比，我们使用ResNet-50。我们在res_conv2的输出后添加了一个CAM和O.F.。将正则化特征图作为res_conv3的输入。接下来，在res_conv4块之后，网络并行的分成一个全局分支和一个注意力分支。我们在ResNet-50主干的所有conv层上应用O.W.，即从res_conv1到res_conv4和两个分支上的res_conv5。将两个分支的输出连接起来作为最终的特征向量。

a：注意力分支：此分支使用了和ResNet-50相同的res_conv5层。将输出的特征图输入到一个降维层，并应用O.F.生成一个更小的特征图 $T_{a}$ 。我们同时向CAM和PAM中输入 $T_{a}$ ，两者都有O.F.约束。两个关注模块的输出和输入 $T_{a}$ 链接，并一起通过一个全局平均池化层，最终得到 $k_{a}$ 维的特征向量。

b：全局分支：此分支使用了和ResNet-50类似的res_conv5层，只是没有进行降采样。将输出的特征图送进GAP和降维层，得到了一个 $k_{g}$ 维的特征向量。除了注意力分支的特征，全局分支还保存了全局上下文信息。

Conclusion：

确实关注信息聚焦在变广了，但是背景信息是不是会被考虑。那就期待阿里的论文解读吧。

不甘现状的咸鱼却没办法

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
ABD-Net: AttentivebutDiversePersonRe-Identiﬁcation论文阅读

Paper：https://arxiv.org/abs/1908.01114Code：https://github.com/TAMU-VITA/ABD-Net摘要：注意力机制已经被证实可以有效的应用在行人重识别领域。然而，利用注意力机制学习到的特征通常是相关的和不具有多样性的。我们通过提出一个专注又多样化的网络（ABD-Net）来说明注意力机制和多样性的互补力量。ABD-Net通过在网络中...
复制链接

扫一扫

专栏目录