Video-based Person Re-identiﬁcation with Accumulative Motion Context

最新推荐文章于 2021-08-28 21:31:52 发布

香客斯的美酒

最新推荐文章于 2021-08-28 21:31:52 发布

阅读量1k

点赞数 1

分类专栏：计算机视觉行人重识别深度学习

计算机视觉同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

行人重识别

4 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

这篇论文是Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang and Shuicheng Yan等人发布在arvix平台上的论文。因为本人的研究方向是视频领域的行人重识别，最近对深度网络领域在re-id领域的兴趣比较大，导师就让看看这篇论文。

这篇论文的网络结构如下图所示：

对于底层的特征提取，论文主要使用空间网络和动作网络。其中黄色框表示空间网络，用于提取单帧的空间信息；蓝色框表示动作网络，用于提取2个相邻帧的动作信息（光流法）。

对于spatial network，由3层卷积层、3层池化层组成：

而动作网络则略微复杂：

这里也给自己挖一个坑，为什么要把卷积层3-1后的输出卷积之后得到2层，而这2层又经过解卷积之后和原始对应的卷积层、解卷积层串联起来。这点的细节和原因要填了坑以后才能了解

对于动作网络的输出，也经过一个和深层网络相同的空间网络。再把2个空间网络的输出进行融合。这里有一个细节是，pred3的宽和高的大小仅为原图的一半，通过网络后得到的大小会不一样，这样融合的话会出现问题。对于这个问题，解决办法是在单帧图像通过Spatial network的时候，图像的宽和高也改为原来的一半。

对于融合的过程，一个简单的思考思路是层的累积，而层的累积又要面对的问题是如何找到层与层之间的对应关系。

作者提供了3种融合方法，求和，最大值和奇偶累积。前2者都是对于特征图的特征点的操作，奇偶累积指的是在奇数层采取a的通道，偶数层采取b的通道。

融合的时候，并不是在空间网络的输出融合，我们也可以注意到网络的输出其实是向量，而不是特征图。融合是在sptial network的中间的卷积层或者是池化层进行。

如图所示，若在第二个池化层进行融合，则后续的层则共享层次结构和网络参数。

在经过混合阶段之后，后续则需要把各个帧之间的信息累计起来，使用一个RNN，定义如下：

最后的输出为

在计算误差的时候，分为分类误差和匹配误差2个阶段。前者计算分类时候是否是分类准确，定义为softmax误差形式：

后者为匹配误差，类似度量学习二元组的形式：

最终的误差形式为定义为两者的组合的形式：

Liu, Hao, et al. "Video-based Person Re-identification with Accumulative Motion Context." arXiv preprint arXiv:1701.00193 (2017).

香客斯的美酒

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Video-based Person Re-identiﬁcation with Accumulative Motion Context

这篇论文是Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang and Shuicheng Yan等人发布在arvix平台上的论文。因为本人的研究方向是视频领域的行人重识别，最近对深度网络领域在re-id领域的兴趣比较大，导师就让看看这篇论文。这篇论文的网络结构如下图所示：对于底层的特征提取，论文主要使用空
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。