Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

最新推荐文章于 2023-03-15 11:15:09 发布

han_jan

最新推荐文章于 2023-03-15 11:15:09 发布

阅读量1.9k

点赞数 3

分类专栏： Re-ID

本文链接：https://blog.csdn.net/baidu_39622935/article/details/85331727

版权

Re-ID 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

一、介绍

这是一篇华中科技大学和IBM人工智能研究中心在2017年ICCV上发表的文章。在这篇文章中，作者提出了一个新奇的联合空间和时域注意力池化网络（ASTPN）来解决视频行人重识别问题。他们提出的方法能够利用到输入视频对之间的相互依赖性，来计算得到各自的特征表示。他们网络中的空间池化层能够从每个视频帧中选择重要的区域，时域注意力池化能够在整个视频序列中选择包含判别信息的帧。这两个池化层都受到距离匹配信息的指导（即孪生网络进行验证任务的损失函数的指导）。作者在iLIDS-VID、PRID-2011、MARS三个数据集上进行了实验，结果显示他们提出的算法超过了state-of-the-art。作者还分析了空间、时域池化单独或联合使用时是怎样促进re-id performance的。

二、作者的方法

2.1 网络结构

作者的网络主体上是一个孪生网络（siamese network)，输入一对视频序列probe和gallery，各随机抽取连续的T（T=16）帧每帧经过CNN得到feature map，然后经过空间池化层（金字塔池化层）得到TXD的特征向量矩阵P和G。将各自T个特征向量经过时域注意力池化层得到Tx1的时域注意力权重alpha_p和alpha_g，P、Q的转置分别和alpha_p和alpha_g点乘后得到Dx1维的特征向量v_p和v_g。同时使用验证损失和分类损失来更新网络。

2.2 CNN

作者并没有使用在ImageNet上预训练的网络ResNet、VGG等，而是使用了在VIPeR数据集上预训练过的三个卷积层，卷积层的参数设置如上表所示。前两个卷积层后都有max pool，第三个卷积层后是联合空间注意力池化层。

2.3 联合空间注意力池化层

作者使用的是空间金字塔池化层（spatial pyramid pooling(SPP) layer ，《Spatial pyramid pooling in deep convolutional networks for visual recognition》这篇文章提出），就是将原来的cxwxh的特征图，通过4个不同尺度的池化核max pool成cx8x8,cx4x4,cx2x2,cx1x1的大小。然后将其展开成cx64,cx16,cx4,cx1大小的一维向量，再连接到一起，得到cxL的图片向量r。

2.4 时域注意力结构

2.4.1 RNN

将T帧图片提取的特征向量r1-rT分别送入一个RNN，RNN的递推公式为：

其中U是NxL大小的矩阵，rt是Lx1大小的矩阵，W是NxN的权重矩阵，s的初始状态s0初始化为Nx1的全0向量。o1-ot经过tanh(.)激活函数后作为RNN的输出。这里的RNN利用了时域信息的同时，还将L维的输入降维到N维。

2.4.2 时域注意力机制

虽然RNN的隐藏状态已经能够利用到时域信息，但是包含很多冗余和背景噪声，所以作者提出了如下时域注意力机制。probe和gallery经过RNN后得到了TxN大小的P、G矩阵，作者学习一个NxN大小的矩阵U：

然后利用上式得到TxT大小的矩阵A，然后对A按列max pool再进行softmax得到probe的注意力权重alpha_p (Tx1），对A按行max pool再进行softmax得到gallery的注意力权重alpha_g (Tx1）。根据注意力权重对P和Q进行加权平均后得到probe和gallery的向量特征v_p和v_g。

2.5 损失函数

得到probe和gallery的向量特征v_p和v_g后，根据孪生网络的一般结构，按照上式计算验证损失。同时作者还使用了分类损失，所以总的损失函数是：

三、实施细节

每个视频选择连续的16帧，即T=16
测试时第一个摄像头下的视频作为probe，第二个摄像头下的视频作为gallery。正对中包含摄像头1下的一个video和摄像头2与之对应的video。负对包含摄像头1下的一个video和摄像头2与随机选取的之不对应的video。训练中正负对交替输入，当摄像头1下所有视频序列都送完作为一个epoch
使用了随机裁切和镜像来做数据增强（同一个视频裁切同一个区域，镜像对整个视频序列镜像）
图像被转换到YUV颜色空间，每个颜色通道进行0均值单位方长的归一化。使用了图像的光流信息，光流图像通过Lucas-Kanade method生成，每个光流通道归一化到[-1,1]的范围
使用SGD，初始学习律0.001，batch size设为1
作者的方法适合当个摄像头single-shot的数据集，这对PRID和iLIDS很合适，对于MARS数据集，作者随机选取了两个摄像头下的video

四、实验结果

在iLIDS-VID和PRID上的实验结果以及与state-of-the-art的对比：

在MARS上的实验结果以及与state-of-the-art的对比：

可以看到，表现相比于前两个数据集有不小的下降，作者解释是因为MARS数据集包含较大的背景噪声（可能也与作者只利用了2个摄像头下的数据有关）

在iLIDS上训练，直接在PRID上测试的实验结果：

成分分析---与只使用空间注意力池化（ASPN)、只使用时间注意力模块(ATPN)的对比：

五、结论

作者提出了ASTPN，一个联合空间-时间池化的视频行人重识别算法，能够联合学习输入视频序列的特征表示和相似度度量。ASTPN拓展了标准的RNN-CNN网络通过将池化分解为空间特征图池化核和对RNN输出的结果进行时间注意力池化。从效果上看，明确的注意力（空间）、含糊的注意力（时间）在每个池化阶段起到了作用，能够在特征学习中选择关键的区域和帧。作者通过在iLIDS-VID, PRID-2011和MARS数据集上的实验证明了ASTPN显著优于标准的max and temporal pooling approaches. 通过控制变量实验，作者证明了联合池化相比于空间/时间单独池化方法的有效性。此外，ASTPN非常易于实施，而且计算比较简单相比于通常的max pooling方法，使其成为设计视频行人重识别RNN-CNN网络的一个理想的选择

han_jan

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

一、介绍这是一篇华中科技大学和IBM人工智能研究中心在2017年ICCV上发表的文章。在这篇文章中，作者提出了一个新奇的联合空间和时域注意力池化网络（ASTPN）来解决视频行人重识别问题。他们提出的方法能够利用到输入视频对之间的相互依赖性，来计算得到各自的特征表示。他们网络中的空间池化层能够从每个视频帧中选择重要的区域，时域注意力池化能够在整个视频序列中选择包含判别信息的帧。这两个池化层都受到...
复制链接

扫一扫

专栏目录