论文阅读笔记 Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

最新推荐文章于 2024-09-26 15:43:05 发布

qq_50569517

最新推荐文章于 2024-09-26 15:43:05 发布

阅读量153

点赞数 1

文章标签：论文阅读人工智能

本文链接：https://blog.csdn.net/qq_50569517/article/details/129493934

版权

引用：S. Xu, Y. Cheng, K. Gu, Y. Yang, S. Chang and P. Zhou, "Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017, pp. 4743-4752, doi: 10.1109/ICCV.2017.507.

重点：

1、提出共同注意时空共享网络(ASTPN。也就是在CNN-RNN的基础上引进了时空注意力机制。

时间上---利用注意力机制提取比较重要的帧；

空间----空间池图层是能够从每一帧中选择区域。，由于大多数监控设备的俯视角度，行人只是整个空间图像的一部分。因此，局部空间注意对于深度网络是必要的

2、1）生成每幅图像的多尺度区域块，并将它们馈入RNN/注意力集中层；2)使模型对任意分辨率/长度的图像序列具有鲁棒性（文中所提出的创新点）

3、网络模型：

1、整体大的框架是孪生网络，两部分是共享权值。

两个部分都是同样的网络结构，包括CNN-空间池化模块——RNN——注意时间池

2、CNN模块：----提取特征

首先输入：由三个颜色通道和两个光流组成

通过卷积提出特征，然后这里 Conv 3是最后一个卷积层。进入空间池层中，我们使用具有多级空间的空间金字塔池结构箱(8×8、4×4、2×2和1×1)。也就是每一个池化会得到一个向量，再把他们拼接起来-----提取出了空间上比较重要的部分。

上一步的结果进入RNN层，通过RNN产生两个矩阵 P，G，我们通过引入参数矩阵U来计算注意矩阵，以在时间维度上捕捉注意分数。

损失函数：

在训练阶段，网络交替显示正负输入对。在新序列输入的测试阶段，复制该序列以形成新的对，并通过孪生络传递该对以获得身份特征。通过计算身份特征与其他身份的先前保存的特征之间的距离，最相似的身份用最低的距离来指示。此外，在这基础上，考虑了身份分类损失。对最终特征(vp，vg)应用softmax回归来预测人的身份。利用交叉熵损失，得到了身份损失I (vp)和I (vg)。由于连体丢失和身份丢失的联合学习带来了很大的提升，最终的训练目标是连体丢失和身份丢失的组合L(vp，vg) = E (vp，vg) + I (vp) + I (vg)。

将iLIDS-VID和PRID-2011的整套人类序列对随机分成大小相等的两个子集。一个用于训练，一个用于测试。报告了平均累积匹配特性(CMC)曲线在10次不同训练/测试分割的试验中的性能。并和其他网络模型对比

还做了消融实验，和跨域实验，消融实验是ATPN和ASPN分别只有时间池模块和空间池模块。跨域实验是ASTPN和RNN-CNN都在多样化的iLIDS-VID数据集上进行训练，然后在50%的PRID-2011数据集上进行测试。