Harmonious Attention Network for Person Re-Identification 论文记录

Harmonious Attention Network for Person Re-Identification
Abstract:现有的re-ID方法(1)或假设模型输入的为对其的人的bounding box图像(2)或可以使用受限的attention选择机制校准未对其的图像。因此对于任意姿态的行人图像,以往的方法都是次优的。本文结合了CNN中的attention selection和feature representation,通过最大化不同级别的visual attention的补充信息来实现。特别地,本文提出一个新颖的Harmonious Attention CNN(HA-CNN)model,用于soft pixel attention和hard regional attention的联合学习,同时优化feature representation。
1 Introduction
本文的主要贡献:(1)提出了多粒度attention selection和feature representation的联合学习思想;(2)提出HA-CNN,可以同时学习hard region-level和soft pixel-level attention,和re-ID feature representation。(3)我们引入一个交叉关注交互学习方案,以进一步增强注意选择和特征表示之间的兼容性。
2 Related Work
3 Harmonious Attention Network
HA-CNN旨在同时学习一系列harmonious attention,全局特征,局部特征,最大限度地发挥其互补性和兼容性。
HA-CNN Overview:HA-CNN是一个多分支网络,一条分支用来学习局部具有区分性的特征,具有T个结构相同的子分支,每条子分支都学习图像T个局部区域中的具有区分性的特征;另一条分支用来学习图像的全局特征,为了减少网络参数,网络节点均使用inception A/B。
在这里插入图片描述
训练时的loss为cross-entropy classification loss。
对于attention selection,我们考虑harmonious attention learning scheme,旨在学出一系列attention map,包括local branch中的regional attention和global branch中的soft(spatial/pixel-level, channel/scale-level)attention。
在这里插入图片描述
3.1 Harmonious Attention Learning
HA是hard regional attention,soft spatial attention和 channel attention的结合。Soft attention旨在找出那些重要的像素,hard attention 旨在找到那些粗略的具有区分性的局部区域。他们彼此互补。
(I)Soft Spatial-Channel Attention。对应上图中的whole soft attention,soft attention旨在得到一个权重图,权重图的尺寸与输入tensor X的尺寸相同。由于spatial attention和channel attention之间相对独立,因此:
在这里插入图片描述
A:soft weight map;S:spatial attention map;C:channel attention map
(1)Spatial Attention。是一个4层的子网络,第一层 global cross-channel averaging pooling。第二层卷积层。第三层用于调整尺寸的双线性层。第四层scaling conv layer,输出tensor的尺寸为h*w。第一层如下:

(2)Channel Attention。4层子网络。第一层averaging pooling layer,输出tensor的尺寸为11c。如下:
在这里插入图片描述
接下来为减少网络参数,使用bottleneck layer来代替一层卷积层,如下:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
(II)Hard Regional Attention。旨在找出具有区分能力的区域,在此我们学习一个transformation matrix:
在这里插入图片描述
输出tensor尺寸为2T,T为region number。如上图(d),是一个两层子网络。输入tensor尺寸为11c,输入给全连接层(节点个数为2T),总的参数为2Tc。然后经过tanh函数。
(III)Cross-Attention Interaction Learning。
在这里插入图片描述
反向传播公式:
在这里插入图片描述
4 Experiment
Implementation detail。所有图片被裁剪为160*64大小。d1=128,d2=256,d3=384.T=4.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值