Harmonious Attention Network for Person Re-Identification 论文记录

最新推荐文章于 2021-01-06 12:27:38 发布

baidu_26375059

最新推荐文章于 2021-01-06 12:27:38 发布

阅读量471

点赞数

分类专栏：论文记录

论文记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Harmonious Attention Network for Person Re-Identification
Abstract：现有的re-ID方法（1）或假设模型输入的为对其的人的bounding box图像（2）或可以使用受限的attention选择机制校准未对其的图像。因此对于任意姿态的行人图像，以往的方法都是次优的。本文结合了CNN中的attention selection和feature representation，通过最大化不同级别的visual attention的补充信息来实现。特别地，本文提出一个新颖的Harmonious Attention CNN（HA-CNN）model，用于soft pixel attention和hard regional attention的联合学习，同时优化feature representation。
1 Introduction
本文的主要贡献：（1）提出了多粒度attention selection和feature representation的联合学习思想；（2）提出HA-CNN，可以同时学习hard region-level和soft pixel-level attention，和re-ID feature representation。（3）我们引入一个交叉关注交互学习方案，以进一步增强注意选择和特征表示之间的兼容性。
2 Related Work
3 Harmonious Attention Network
HA-CNN旨在同时学习一系列harmonious attention，全局特征，局部特征，最大限度地发挥其互补性和兼容性。
HA-CNN Overview：HA-CNN是一个多分支网络，一条分支用来学习局部具有区分性的特征，具有T个结构相同的子分支，每条子分支都学习图像T个局部区域中的具有区分性的特征；另一条分支用来学习图像的全局特征，为了减少网络参数，网络节点均使用inception A/B。
在这里插入图片描述
训练时的loss为cross-entropy classification loss。
对于attention selection，我们考虑harmonious attention learning scheme，旨在学出一系列attention map，包括local branch中的regional attention和global branch中的soft（spatial/pixel-level, channel/scale-level）attention。
在这里插入图片描述
3.1 Harmonious Attention Learning
HA是hard regional attention，soft spatial attention和 channel attention的结合。Soft attention旨在找出那些重要的像素，hard attention 旨在找到那些粗略的具有区分性的局部区域。他们彼此互补。
（I）Soft Spatial-Channel Attention。对应上图中的whole soft attention，soft attention旨在得到一个权重图，权重图的尺寸与输入tensor X的尺寸相同。由于spatial attention和channel attention之间相对独立，因此：
在这里插入图片描述
A：soft weight map；S：spatial attention map；C：channel attention map
（1）Spatial Attention。是一个4层的子网络，第一层 global cross-channel averaging pooling。第二层卷积层。第三层用于调整尺寸的双线性层。第四层scaling conv layer，输出tensor的尺寸为h*w。第一层如下：

（2）Channel Attention。4层子网络。第一层averaging pooling layer，输出tensor的尺寸为11c。如下：
在这里插入图片描述
接下来为减少网络参数，使用bottleneck layer来代替一层卷积层，如下：

，
（II）Hard Regional Attention。旨在找出具有区分能力的区域，在此我们学习一个transformation matrix：

输出tensor尺寸为2T，T为region number。如上图（d），是一个两层子网络。输入tensor尺寸为11c，输入给全连接层（节点个数为2T），总的参数为2Tc。然后经过tanh函数。
（III）Cross-Attention Interaction Learning。
在这里插入图片描述
反向传播公式：

4 Experiment
Implementation detail。所有图片被裁剪为160*64大小。d1=128,d2=256,d3=384.T=4.