2020Spatial-Temporal Graph Convolutional Network for Video-based Person Re-identification论文笔记（时空图卷积）

最新推荐文章于 2024-01-23 22:48:05 发布

土豆泥土豆块

最新推荐文章于 2024-01-23 22:48:05 发布

阅读量537

点赞数 2

分类专栏：行人重识别时空模型文章标签：深度学习

原文链接：https://zhuanlan.zhihu.com/p/400749226

版权

行人重识别同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

时空模型

1 篇文章 0 订阅

订阅专栏

2020 Spatial-Temporal Graph Convolutional Network for Video-based Person Re-identification

转载自https://zhuanlan.zhihu.com/p/400749226
本篇论文发表在CVPR 2020，作者将图卷积这种方法用在了行人重识别领域（基于视频的ReID），作者单位分别为：中山大学、鹏程实验室、香港中文大学、华为诺亚方舟实验室等单位！我找了很多图卷积相关的论文，发现GCN应用在ReID领域的论文真的比较少，大多用在社交网络或者知识图谱等领域吧，难怪我导师说GCN近两年才变得比较火，是一种很好的方法，希望让我深入调研一下用到行人方面（好难）！

[摘要]

基于视频的ReID问题：遮挡 + 视觉模糊问题是两大难题！

视频的不同帧（时间上）之间可以提供互补的信息、行人的结构信息（空间上）也能够为外观特征提供额外的鉴别线索。因此，对不同帧之间的时间关系和同一帧内的空间关系建模有利于解决这些问题。

本文提出了STGCN：包含一个空间分支+一个时间分支。

空间分支：提取人体的结构信息

时间分支：从相邻帧中挖掘有区别的线索

最后联合全局分支一起优化这些分支！

上图是MARS视频数据集中的4个不同行人的图片：在（a）中，很容易看到第3张图中的遮挡部分可以由第1张图提供补充信息；（c）和（d）可以从外观上清晰的判断出属于不同的行人；但是（b）和（d）由于外观上极为相似（都是黑衣男子），很难通过简单的外观判断，但其实他们之间的身体结构信息转化到图结构中是完全不同的，因此需要借助空间上的结构信息去进行判别。

【Related Work】

基于图像的ReID：

现有方法集中在手工设计特征、距离矩阵学习、深度学习三种方法；然而视频中包含很多帧和重要的时间信息，因此基于图像的方法缺少建模视频的时间关联。

基于视频的ReID：

现有方法集中在光流、RNN、时间池化、时空注意力去建模时间信息，但是，计算光流费时而且对遮挡和噪声的干扰不够健壮；

以上方法均不能完全考虑到不同帧之间身体部位的时间关联。

图神经网络方法：

此前的方法不模拟同一帧内的结构信息和不同帧的时间关系；

本文提出的时空图卷积共同考虑了建模同一帧内的空间信息和不同帧内的时间关联，这能够学习到区别能力强的和健壮的时空关联。

本文的Contributions如下：

使用GCN去建模同一帧内以及不同帧之间的身体不同部位的潜在关系，为行人重识别提供更多的区别特征和健壮信息。
提出了一个结合的框架，综合考虑了时间和结构上的关联。

【The Proposed Method】

一、整体结构

图的左边开始，T代表输入视频一共分为T帧，使用一个CNN骨干网络去提取特征，模型分为3个分支：时间分支+空间分支+全局分支。对于时间和空间分支，我们首先使用平均池化，将特征图水平划分为P块，每一块被看做图中的一个结点。对于全局分支，使用时间序列的平均池化去进行处理；

假设，一个视频有T帧，即对应T个特征图，每帧分成P个patch，总共有TP个patch，G(V，E)是构造的N个节点的patch图，将每个patch当做一个节点，用E中的边表示patch之间的关系，所以邻接矩阵A是NN的，其中的每个元素表示一个成对的patch关系。

对于邻接矩阵的每一行，边值的和为1；
每个元素应该是非负的，并且系数在（0,1）之间；

二、时间GCN模块

T-GCN模块被设计用来捕获不同帧之间patch之间的时间动态关系。不同的颜色代表不同的patch，图中是将每个特征图水平的分割为P个patch，T帧就会得到 T*P 个patch，这些patch会被看做图中的节点，最终，对GCN的输出使用了最大池化来得到最终的特征。

三、空间GCN模块

在T-GCN中，我们使用不同帧的所有patch来构造图，为的是捕获不同帧之间patch的互补信息；而在S-GCN中，我们使用GCN来建模视频中每一帧不同的patch的空间关系（每一帧都有一个GCN），然后融合视频中每一帧的GCN特征得到他们的内在结构特征。

【Loss】

本文采用三元组损失函数和softmax交叉熵损失函数对网络进行训练；

其中，每个类型特征都会计算一个triplet loss，最后的triplet loss的公式如下：

最终的loss构成如下：

【Experiments】

采用的ResNet50作为主干网络

最后一步设置为1

训练了800epoch

初始学习率设置为0.0003，从第10到第200轮递减

Adam作为优化器

作者做了消融实验：

单独+时间GCN
单独+空间GCN
时间GCN+空间GCN
时空GCN+Global

实验证明，相互之间还是起到补充作用，最终聚合效果更好。

以上就是有关这篇论文的一个介绍，后面会继续介绍图卷积或者行人重识别方面的论文，暑假学习真的好难好难哈哈哈！

土豆泥土豆块

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2020Spatial-Temporal Graph Convolutional Network for Video-based Person Re-identification论文笔记（时空图卷积）

转载自https://zhuanlan.zhihu.com/p/400749226本篇论文发表在CVPR 2020，作者将图卷积这种方法用在了行人重识别领域（基于视频的ReID），作者单位分别为：中山大学、鹏程实验室、香港中文大学、华为诺亚方舟实验室等单位！我找了很多图卷积相关的论文，发现GCN应用在ReID领域的论文真的比较少，大多用在社交网络或者知识图谱等领域吧，难怪我导师说GCN近两年才变得比较火，是一种很好的方法，希望让我深入调研一下用到行人方面（好难）！【摘要】基于视频的ReID问题：遮挡
复制链接

扫一扫

专栏目录