引用:S. Xu, Y. Cheng, K. Gu, Y. Yang, S. Chang and P. Zhou, "Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017, pp. 4743-4752, doi: 10.1109/ICCV.2017.507.
重点:
1、提出共同注意时空 共享网络(ASTPN。也就是在CNN-RNN的基础上引进了时空注意力机制。
时间上---利用注意力机制提取比较重要的帧;
空间----空间池图层是 能够从每一帧中选择区域。,由于大多数监控设备的俯视角度,行人只是整个空间图像的一部分。因此,局部空间注意对于深度网络是必要的
2、1)生成每幅图像的多尺度区域块,并将它们馈入RNN/注意力集中层;2)使模型对任意分辨率/长度的图像序列具有鲁棒性 (文中所提出的创新点)
3、网络模型:
1、整体大的框架是孪生网络,两部分是共享权值。
两个部分都是同样的网络结构,包括CNN-空间池化模块——RNN——注意时间池
2、CNN模块:----提取特征
首先输入:由三个颜色通道和两个光流组成
通过卷积提出特征,然后这里 Conv 3是最后一个卷积层。进入空间池层中, 我们使用具有多级空间的空间金字塔池结构 箱(8×8、4×4、2×2和1×1)。也就是每一个池化会得到一个向量,再把他们拼接起来-----提取出了空间上比较重要的部分。
上一步的结果进入RNN层,通过RNN产生两个矩阵 P,G,我们通过引入参数矩阵U来计算注意矩阵,以在时间维度上捕捉注意分数。
损失函数:
在训练阶段,网络交替显示正负输入对。在新序列输入的测试阶段,复制该序列以形成新的对,并通过孪生络传递该对以获得身份特征。通过计算身份特征与其他身份的先前保存的特征之间的距离,最相似的身份用最低的距离来指示。此外,在这基础上,考虑了身份分类损失。对最终特征(vp,vg)应用softmax回归来预测人的身份。利用交叉熵损失,得到了身份损失I (vp)和I (vg)。由于连体丢失和身份丢失的联合学习带来了很大的提升,最终的训练目标是连体丢失和身份丢失的组合L(vp,vg) = E (vp,vg) + I (vp) + I (vg)。
将iLIDS-VID和PRID-2011的整套人类序列对随机分成大小相等的两个子集。一个用于训练,一个用于测试。报告了平均累积匹配特性(CMC)曲线在10次不同训练/测试分割的试验中的性能。并和其他网络模型对比
还做了消融实验,和跨域实验,消融实验是ATPN和ASPN分别只有时间池模块和空间池模块。跨域实验是ASTPN和RNN-CNN都在多样化的iLIDS-VID数据集上进行训练,然后在50%的PRID-2011数据集上进行测试。