视频人员重识别：关系引导空间注意力 + 时间特征提取模型

最新推荐文章于 2024-06-04 09:42:21 发布

我爱计算机视觉

最新推荐文章于 2024-06-04 09:42:21 发布

阅读量1.1k

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/112211116

版权

本文介绍了基于关系引导的空间注意力（RGSA）和时间特征提取（RGTR）的视频行人再识别方法。通过关系模块（RM）计算特征间的关系，生成全局关系向量（GRV），用于优化空间和时间特征。RGSA利用GRV聚焦前景，抑制背景，而RGTR则增强帧级特征表示，提高识别准确性。实验结果验证了该方法的有效性。

摘要由CSDN通过智能技术生成

2020 年顶会论文中，很多都会将关系加入到注意力机制的获取中。

除了该文，还有 2020 年 CVPR 的基于视频的 Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification、基于图像的Relation-Aware Global Attention 等。

该方法都会在这些论文中有着很好的效果，可见这是在行人重识别领域一大发展。

论文名称：Relation-Guided Spatial Attention and Temporal Refinement for Video-Based Person Re-Identification(基于关系引导的空间注意力和时间特征提取的基于视频的行人再识别)
第一作者：Xingze Li
通讯作者：Wengang Zhou
作者单位：CAS Key Laboratory of Technology in GIPAS, EEIS Department,中国科学院电子工程与信息科学系 University of Science and Technology of China（中国科学技术大学）

看点

RGSA（relation-guided spatial attention）模块：每个 spatial 位置的注意力由它的特征和与所有位置的关系向量决定（也就是关系引导），并最终融合为一个frame的特征，它能够捕捉局部和全局信息，同时定位特征区域而抑制背景信息。同时作者提出，感受野要尽量的小，才能提取出更加具有区别性的特征。
RGTR（relation-guided temporal refinement）模块：所有帧与帧的关系信息使得各个帧之间能够相互补充，有助于增强帧级特征表示。
RM 关系模块：计算特征之间的关系使用的方法不再是 dot 或 inner，而是自己开发了一种 RM 关系模块来生成两个特征的关系向量。
GRV（global relation vector）：通过计算每个 spatial 位置的的关系和各个frame 之间的关系，生成 spatial-level 和 frame-level 的 GRV。并分别用在了RGSA 和 RGTR 模型中。

PS：Spatial feature：指的是以（i， j）每个像素为单位的特征。为 1x1xC 维度。

Motivation

基于图像的所获得的信息是有限的，尤其是当受到遮挡或者有异常点时。
基于视频的行人重识别领域中，通常的做法是将局部信息融合为全局，然后估计全局（frames）或局部（parts）区域的质量，并将质量用作融合特征的权重。通常，这些方法仅仅单独考虑每个区域的质量，而忽略了区域内的质量差异和上下文信息。

Contribution

基于视频领域经常使用的方法是RNNs、卷积运算和注意力机制对空间和时间信息进行建模。他们中使用光流来提取低层次的运动信息，或者使用注意力机制来评估每个frame的质量分数。与这些捕捉局部信息的方法不同，我们的方法利用很少探索的全局关系信息来引导空间注意力和时间特征提取。

传统的 Non-Local Mechanisms 中，特征之间的相似性被归一化以用作关注，并且每个特征由所有特征的加权和来更新。在所有上述非局部机制中，特征通过加权求和操作来更新，其中相似的特征具有大的权重。

缺点：这种方法在有效获取上下文信息和识别更新特征的区别区域方面存在局限性。我们的：与这些方法不同，我们的方法探索全局关系信息以聚焦于informative foreground，并使框架在上下文中相互补充。

提出新的 RM 模型用来提取时间和空间特征之间的关系，生成 GRV，可以使得在空间位置上定位特征区域而抑制背景信息。每个位置的注意力由它的特征和与所有位置的关系向量决定，它能够捕捉局部和全局信息。又能在空间位置上进一步提取和增强帧之间的特征，所有帧内的关系信息使得各个帧能够相互补充，有助于增强帧级特征表示。

04 <

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
视频人员重识别：关系引导空间注意力 + 时间特征提取模型

2020 年顶会论文中，很多都会将关系加入到注意力机制的获取中。除了该文，还有 2020 年 CVPR 的基于视频的 Multi-Granularity Reference-Aided ...
复制链接

扫一扫