Spatially and Temporally Efficient Non-local Attention Net work for Video-based Re-Id 论文笔记

作者的目标非常明确(刷分),利用注意力机制,首次将Mars数据集的rank-1突破90难关。

Abstract

在神经网络中利用注意力机制来学习图像特征是近几年来比较流行的方法,同样地,也适用于视频序列特征。除了将Non-local加入ResNet50中,作者还细化了Non-local操作的中间特征和高维特征。为此,做出两个贡献:

( i ) 建立了一个非局部注意力 网络 (NVAN) ,将视频特征纳入多个特征级别的表示

(ii) 进一步引入一个时空高效的非局部视频注意网络(STE-NVAN)通过研究视频序列中呈现的时空冗余来降低计算复杂度。

实验证明,NVAN在Mars数据集上的rank-1超过了90。并且,STE-NVAN具有更强的计算能力。

1.Related work

1.1 Non-local Video Attention Network

1)Restricted Random Sampling (RRS):在将视频序列集合传入网络模型前,先利用随机抽样策略(RRS)对其进行采样。即将输入的视频序列V,分成相等持续时间的T个块{Ct} t=[1,T]。训练阶段,抽取每一块中随机一帧作为输入,测试阶段,抽取每一块中的第一个作为输入。

2)Non-local Attention Layer :对Non-local不太熟的可以参考文献Non-local Neural Network,本文只是在原Non-local的基础上添加一个维度-时序T,将视频特征嵌入到features中。给定从尺寸C×H×W的T个序列中获得输入特征X∈C×T×H×W,希望在所有空间位置和帧之间交换特征之间的信息。从X中抽取xi,对应的non-local输出yi的表达式为:

 其中θ,φ,g是1×1×1的卷积层,i,j = [1,THW],是索引特征映射和所有帧的所有位置。这样就实现了空间和帧之间的信息交互。整个Non-local层最终被表示为Z=WzY+X,其中Non-local运算的输出是通过将Y映射到原始特征空间Rc的变换Wz(1×1×1卷积)在加到原始特征张量X上。

3)Feature Pooling Layer (FPL):序列通过主干网CNN和Non-local层之,使用特征池化层来获得用于Re-ID的最终特征,如下图所示。作者沿着空间和时间维度应用3D平均池化(3DAP),以将每个图像的输出特征聚集成代表向量,在之后加入BN层。通过联合优化交叉熵损失和难样本挖掘的三元组损失来训练网络。在最终特征上优化交叉熵损失,同在BN之前的特征上优化三重态损失,可以获得最好的Re-ID性能。因为没有归一化的嵌入空间更适合于距离度量学习,如三元组丢失,而归一化的特征空间迫使模型利用交叉熵损失在具有更多约束的空间上对样本进行分类。

1.2 Spatially and Temporally Efficient Non-local Video Attention Network

作者提出的NVAN的确能够辅助模型捕获视频序列的复杂属性,但是计算复杂度也大幅度增加。因此,作者提出了两种方案来减小计算量。

1)Spatial Reduction with Pedestrian Part Characteristics:最初介绍的Non-local操作在所有T HW位置的特征之间进行复杂的计算以获得最终的注意力掩膜。这会导致每一个Non-local层的计算复杂度为O(C’T2H2W2+CC’THW)。为此,作者对特征沿水平方向分组,得到更小的特征向量(如下图所示)。这样做的理由是,相同水平条带的像素倾向于共享类似的特征,该特征可以利用来产生图像的粗略表示。这样,将原始特征X∈C×T×H×W水平分S组后,得到X'∈C×T×S,最后计算复杂度降为O(C’T2S2+CC’TS)。

 2)Temporal Reduction with Hierarchical Structure:通过Non-local操作细化的特征通常在时间上相似,因为是将全局时间信息嵌入到特征中。所以利用不同帧特征之间的时间冗余,提出了一种分层结构来减少提取序列特征的繁重计算量。如下图所示。在通过一系列残差和Non-local层传递一系列图像后,在相邻帧的特征上应用最大池化,并将时间特征的维数减少2倍。在另一堆残差块之后执行相同的缩减操作,直到时间维度缩减为2,然后发送给FPL进行最终特征融合。这种时间缩减技术减少了提取具有残差块和Non-local层的序列特征所需的计算量。通过应用空间减少的Non-local层和分层时间减少结构,提出了最终的基于视频的人物识别的时空高效非局部视频注意网络(STE-NVAN)。

 

 

 2.Experiments

 

 细节:将每个视频集分割成T=8个块,并采样8幅图像作为输入序列。每个帧的大小调整为256×128,并同步增加每个轨迹的随机水平翻转。采用ImageNet预训练的ResNet-50作为骨干网络,并将conv5_1的stride修改为1,以更好地适应Re-ID任务。对于的NVAN,分别在conv3_3、con3_4和con4_4、con4_5、con4_6之后插入1个Non-local层。对于STE-NVAN,我们在空间缩减非局部层中设置S=16,并在第二个和第五个Non-local层之后执行最大池化,以减少时间维度。使用用交叉熵损失和三元组损失对网络进行200个epoch的训练,并选择初始学习率为10的Adam优化器−每50个epoch将其衰减10次。对8个ID进行采样,每个ID有4个轨迹,以形成一批大小为8×4×8=256的图像。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值