论文阅读笔记 Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

引用:S. Xu, Y. Cheng, K. Gu, Y. Yang, S. Chang and P. Zhou, "Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017, pp. 4743-4752, doi: 10.1109/ICCV.2017.507.

 重点:

1、提出共同注意时空 共享网络(ASTPN。也就是在CNN-RNN的基础上引进了时空注意力机制。

时间上---利用注意力机制提取比较重要的帧;

空间----空间池图层是 能够从每一帧中选择区域。,由于大多数监控设备的俯视角度,行人只是整个空间图像的一部分。因此,局部空间注意对于深度网络是必要的

2、1)生成每幅图像的多尺度区域块,并将它们馈入RNN/注意力集中层;2)使模型对任意分辨率/长度的图像序列具有鲁棒性  (文中所提出的创新点)

3、网络模型:

1、整体大的框架是孪生网络,两部分是共享权值。

两个部分都是同样的网络结构,包括CNN-空间池化模块——RNN——注意时间池

2、CNN模块:----提取特征

首先输入:由三个颜色通道和两个光流组成

通过卷积提出特征,然后这里 Conv 3是最后一个卷积层。进入空间池层中, 我们使用具有多级空间的空间金字塔池结构 箱(8×8、4×4、2×2和1×1)。也就是每一个池化会得到一个向量,再把他们拼接起来-----提取出了空间上比较重要的部分。

上一步的结果进入RNN层,通过RNN产生两个矩阵 P,G,我们通过引入参数矩阵U来计算注意矩阵,以在时间维度上捕捉注意分数。 

损失函数:

在训练阶段,网络交替显示正负输入对。在新序列输入的测试阶段,复制该序列以形成新的对,并通过孪生络传递该对以获得身份特征。通过计算身份特征与其他身份的先前保存的特征之间的距离,最相似的身份用最低的距离来指示。此外,在这基础上,考虑了身份分类损失。对最终特征(vp,vg)应用softmax回归来预测人的身份。利用交叉熵损失,得到了身份损失I (vp)和I (vg)。由于连体丢失和身份丢失的联合学习带来了很大的提升,最终的训练目标是连体丢失和身份丢失的组合L(vp,vg) = E (vp,vg) + I (vp) + I (vg)。

 

 

 

 将iLIDS-VID和PRID-2011的整套人类序列对随机分成大小相等的两个子集。一个用于训练,一个用于测试。报告了平均累积匹配特性(CMC)曲线在10次不同训练/测试分割的试验中的性能。并和其他网络模型对比

还做了消融实验,和跨域实验,消融实验是ATPN和ASPN分别只有时间池模块和空间池模块。跨域实验是ASTPN和RNN-CNN都在多样化的iLIDS-VID数据集上进行训练,然后在50%的PRID-2011数据集上进行测试。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值