Video-based Person Re-identification with Accumulative Motion Context

这篇论文是Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang and Shuicheng Yan等人发布在arvix平台上的论文。因为本人的研究方向是视频领域的行人重识别,最近对深度网络领域在re-id领域的兴趣比较大,导师就让看看这篇论文。

这篇论文的网络结构如下图所示:


对于底层的特征提取,论文主要使用空间网络和动作网络。其中黄色框表示空间网络,用于提取单帧的空间信息;蓝色框表示动作网络,用于提取2个相邻帧的动作信息(光流法)。

对于spatial network,由3层卷积层、3层池化层组成:


而动作网络则略微复杂:


这里也给自己挖一个坑,为什么要把卷积层3-1后的输出卷积之后得到2层,而这2层又经过解卷积之后和原始对应的卷积层、解卷积层串联起来。这点的细节和原因要填了坑以后才能了解

对于动作网络的输出,也经过一个和深层网络相同的空间网络。再把2个空间网络的输出进行融合。这里有一个细节是,pred3的宽和高的大小仅为原图的一半,通过网络后得到的大小会不一样,这样融合的话会出现问题。对于这个问题,解决办法是在单帧图像通过Spatial network的时候,图像的宽和高也改为原来的一半。

对于融合的过程,一个简单的思考思路是层的累积,而层的累积又要面对的问题是如何找到层与层之间的对应关系。

作者提供了3种融合方法,求和,最大值和奇偶累积。前2者都是对于特征图的特征点的操作,奇偶累积指的是在奇数层采取a的通道,偶数层采取b的通道。

融合的时候,并不是在空间网络的输出融合,我们也可以注意到网络的输出其实是向量,而不是特征图。融合是在sptial network的中间的卷积层或者是池化层进行。


如图所示,若在第二个池化层进行融合,则后续的层则共享层次结构和网络参数。


在经过混合阶段之后,后续则需要把各个帧之间的信息累计起来,使用一个RNN,定义如下:


最后的输出为


在计算误差的时候,分为分类误差和匹配误差2个阶段。前者计算分类时候是否是分类准确,定义为softmax误差形式:



后者为匹配误差,类似度量学习二元组的形式:


最终的误差形式为定义为两者的组合的形式:



Liu, Hao, et al. "Video-based Person Re-identification with Accumulative Motion Context." arXiv preprint arXiv:1701.00193 (2017).

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值