论文阅读（六）CVPR 2018 Mask-guided Contrastive Attention Model for Person Re-Identiﬁcation

最新推荐文章于 2021-11-23 11:05:00 发布

CSDN@zxy

最新推荐文章于 2021-11-23 11:05:00 发布

阅读量1k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_40500230/article/details/94384294

版权

文章地址：http://openaccess.thecvf.com/content_cvpr_2018/papers_backup/Song_Mask-Guided_Contrastive_Attention_CVPR_2018_paper.pdf

素质四连：

要解决什么问题：作者考虑到行人图片中背景的噪声干扰，想用一种方法去掉背景干扰，使网络更关注于前景body区域图像。
用了什么方法解决：设计了一种名为mask-guided contrastive attention model (MGCAM)的三通道（full、body、background）模型，该模型使用输入图像的二值掩模作为辅助数据，结合triplet loss和siamese loss，使得训练后的网络的full-stream关注于图像中的body区域。网络以full-stream为提取特征的主干，body-stream、background-stream用来辅助full-stream学习body区域特征。在模型损失计算方面，模型采用多种损失联合的方法，其中triplet loss用于将三个通道的输出128维特征向量用三元损失计算，其中以full-stream作为anchor，拉近body-stream与full-stream的距离，是得网络能在学习过程中更加关注body区域。在contrastive attention sub-net中使用使用Mean Squared Error (MSE) loss 来计算正 attention map与body-mask之间的损失。在Siamese loss用于最后的分类计算，作者说不使用孪生网络也可以，直接做分类就可以。
效果如何：证明了RGB-M的效果优于RGB。只使用mask-RGB的hard manner方法效果不如RGB。只使用二值mask也有29.34的准确率，说明网络可以学习到轮廓特征。hard方法（直接使用mask-RGB）不如soft（文中训练的attention map）方法。使用孪生网络有助于提升MGCAM效果。四种距离评估方法中，re-rank的效果最好。
还存在什么问题：

Abstract

P-Reid在计算机视觉中是一个重要得任务，由于存在杂乱无章得背景，和不同的拍摄角度与人体姿态，其实现面临着巨大挑战。如何从杂乱变化得背景中提取出具有鲁棒性得判别特征是一个核心问题。本文中，我们首先使用了二值分割掩模来构建RGB掩模对来作为输入，然后我们设计了一个由掩模引导的对比注意力机制的模型（MGCAM），分别学习来自身体和背景得特征。此外，我们设计了一个新颖的针对不同区域的triplet loss，该损失抑制从不同区域学习到的特征，将人体区域的特征从全图中抽取出来，并将背景去除。我们可能是第一个成功将二值掩模引入ReID任务的人，也是第一个提出区域级对比学习的人。我们在三个公共数据集上测试所提出的方法，包括MARS，Market-1501和CUHK03。大量实验结果表明，该方法是有效的，并达到了最先进的结果。

图1，展示了二值掩模和对抗特征学的region-level triplet loss。（a）展示了RGB图像对应的掩模，第三行展示了人体区域被精确提取的效果。（b）region-level triplet loss可以抑制从不同区域学习到的特征，将人体区域的特征从全图中抽取出来，并将背景去除

1. Introduction

行人再识别（ReID）在各种监视应用中起着重要作用，例如行人检索和公共安全事件检测。通常，对于给定一个查询图像，Reid就可以在多个摄像机上识别同一个人。由于各种身体姿势，相机视角，照明和杂乱的背景，它仍然是一个具有挑战性的问题。近年来，涌现了大量的解决方案，大多数方法直接学习整张图的特征，这样就包含了粗糙的背景。最近，提出的基于深度学习的方法来学习身体局部区域特征，这些局部特征或是由局部区域检测器检测，或是由姿态或者关节点检测出来的。已经证实，这些从图像身体区域提取特征的方法是有效的。这表明，删除杂乱背景对提升Reid效果是有帮助的。

处理背景杂乱的另一种解决方案是通过分割获得人体区域。幸运的是，随着基于深度学习的图像分类分割方法快速发展，大量人体分割数据集的涌现，使得我们可以获取更好的人体掩模，如图1a所示。生成的二进制分割掩码非常好，可以准确地删除人物图像中的背景。会在相关工作中介绍生成掩模的方法。

二元人体掩模可以在两个方面对Reid做出贡献。首先，掩模可以帮助移除像素级别的背景噪声，这可以极大的提升Reid在不同场景下的鲁棒性。第二，掩模包含人体形状信息，该信息可以作为重要的步态特征。已经证明，在步态特征中，身体掩模对于光照和衣服颜色具有鲁棒性，因此可以用来进行行人识别。

最直接的获取二值人体掩模的方法就是直接把背景掩盖掉。在二值掩模图中只包含人体区域，然而在我们的实验中，我们发现，掩模图像的匹配效果相比用原始图片甚至有一点糟糕。（参考4.3节）这个结果表示，用二值掩模直接删除背景并不是一个好的选择，这可能会影响图像的结构化信息和图像的平滑度。此外，错误分割的掩模可能包含大量背景或丢失一些重要的身体部位，这将极大地影响性能。在这种情况下，在特征图上删除背景是一个不错的选择。

为了解决这个问题，我们研究在特征层面利用二值掩模来

最低0.47元/天解锁文章

CSDN@zxy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
论文阅读（六）CVPR 2018 Mask-guided Contrastive Attention Model for Person Re-Identiﬁcation

文章地址：http://openaccess.thecvf.com/content_cvpr_2018/papers_backup/Song_Mask-Guided_Contrastive_Attention_CVPR_2018_paper.pdf素质四连：要解决什么问题：作者考虑到行人图片中背景的噪声干扰，想用一种方法去掉背景干扰，使网络更关注于前景body区域图像。用了什么方法...
复制链接

扫一扫