ReID简记-2-Spatial and Temporal Mutual Promotion for Video-based Person Re-identification

最新推荐文章于 2021-08-26 16:06:28 发布

betariver

最新推荐文章于 2021-08-26 16:06:28 发布

阅读量1.1k

点赞数

分类专栏： ReID笔记 arxiv 文章标签： ReID笔记

本文链接：https://blog.csdn.net/u013368992/article/details/85330273

版权

ReID笔记同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

arxiv

3 篇文章 0 订阅

订阅专栏

创新点

（1）Refining Recurrent Unit (RRU) 关注遮挡，外观噪声和运动信息
（2）Spatial-temporal Clues Integration Module (STIM) 整合时空信息
（3）Multi-level Training Objective 增强上述两者能力

总结

网络有点复杂，真的是玩出了花。
（1）RRU，可以看成时CNN的RNN化，堆叠了几个权值共享的CNN。在特征进入RRU之前，先经过了CNN（文中指Inception），然后这个inception 特征和上一帧的inception特征做差表示运动空间的反应，同事，当前帧的inception特征和上一帧的RRU特征做差表示物体的外观差别，将这两个特征差concate送入当前帧的RRU中的更新门g得到当前帧的RRU特征。update gate g 的定义是：
首先transition layer，conv+BN+ReLU；然后是两个分支 spatial attention model和channel attention model。两个分支比较普通，特征相乘然后输出。
通过g之后，再与之前的RRU特征和CNN特征做修正和融合（文中公式5）得到最后当前帧的RRU特征。
（2）STIM 这个模块比较简单，主要是两个3D卷积块和一个全局平均池化。
（3）Multi-level Training Objective，三个损失的和。分别是cross entropy loss， batch hard triplet loss和基于第二个loss的 part-level ranking constraint。接下来说一下第三个特征。将RRU特征水平分成H份，平均然后套用公式１０。
想法比较好，就是有些复杂。