Mask-guided Contrastive Attention Model for Person Re-Identification 详解

最近在看Re-ID相关的东西,现在把这篇paper记录一下。代码地址

一、概述

首先二元体掩码可以在两个方面为Re-ID做出贡献。1、掩模可以帮助消除像素级的背景杂波,这可以极大地提高ReID模型在各种背景条件下的鲁棒性。2、面具包含可被视为重要步态特征的体形信息。
如果直接掩盖掉图像中的背景,会使得性能变差,具体的实验结果可以在作者文章4.3节见到,如下:
在这里插入图片描述

二、网络结构:

为了解决这个问题,作者利用二元掩码来减少特征级别中的背景中的噪声,并提出了一种对比注意模型(MGCAM)来从身体和背景区域对比学习特征。如下图:
在这里插入图片描述
在特征空间中,从body区域和完整图像学习的特征应该是相似的,而从背景和完整图像学习的特征应该是不同的。为此,提出的MGCAM首先在二元体掩模的指导下产生一对对比注意力图。然后将对比注意力图添加到CNN特征中以分别生成身体感知和背景感知特征。
There are two main components, the contrastive attention
sub-net and the region-level triplet loss for contrastive
feature learning. The first part can generate a pair of inverse
attention masks which are used to the body-aware
and background-aware feature learning. Whereas the second
part restrains the distances between features from the
full-stream, the body-stream and the background-stream.
对于三个stream,full stream学习整个image的feature;body stream学习body-attention map;background stream学习background-attention map。虽然这三个stream都是学习的同一张图,但是他们是有些差别的,对于background-stream从background 学习到的特征对于Re-ID这个任务来说是完全没有用的,并且应该提出背景对于前景的影响,所以作者使用triplet loss,正样本是body feature而负样本是bkgd loss。作者希望通过这个函数,使得body feature提供大部分信息,并且同时希望减少背景对于最终结果的影响。

三、Loss

3.1 Mask-guided Contrastive Attention Sub-net

在这里插入图片描述
已知这前景和背景的attention map两个操作是互补的,所以肯定会存在这样一个条件:对于feature map上每一个点(i,j):
在这里插入图片描述

之后的body feature以及bkgd feature的获得则是利用 f s t a g e 2 f_{stage_2} fstage2与这两个值进行内积操作:
在这里插入图片描述

3.2 Region-Level Triplet Loss for Contrastive Feature

Learning
作者通过一个损失函数来生成独立的body feature以及background feature。损失函数如下所示:
在这里插入图片描述
作者使用了triplet loss。这个目标样本自然就是full feature,正样本是body feature而负样本是bkgd loss。这个很容易理解,希望通过这个函数,使得body feature提供大部分信息,并且同时希望减少背景对于最终结果的影响。
在这里插入图片描述
Note:其中m为超参数,根据经验设置为10

3.3 Objective Function

前面提到了这么多都是为了Re-ID这个目标服务,总体的框架为:
在这里插入图片描述
这个网络框架类似于孪生网络,对于两个待对比的人,我们经过MGCAM网络提取到最后的特征分别为h§和h(g),最后通过如下函数对比其相似度:
在这里插入图片描述
Note:m同上,为经验值10

整个函数训练过程中使用的目标函数式表达为:
在这里插入图片描述
Note:where λ, α and β are the hypermeters, which are respectively
set to 0.01, 0.01 and 0.1 in our experiments

四、总结

本文作者提出的思路可以总结如下:
1、为了减少带有蒙版的人物图像背景杂乱,设计了一个由二元蒙版引导的对比注意模型。它可以生成一对身体感知和背景感知的注意力图,可用于生成身体和背景的特征。

1、作者进一步提出从完整图像,身体和背景的特征区域级三联体损失。它可以强制模型学习的特征对背景杂乱不变。

3、作者探索将身体蒙版作为附加输入并伴随RGB图像来增强ReID特征学习。二元掩模有两个主要优点:1)它可以帮助减少背景杂乱,2)它包含身份相关的功能,如身体形状信息。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Attention-guided CNN for image denoising》是一种用于图像去噪的神经网络模型。它基于卷积神经网络(CNN)的基本架构,但引入了注意力机制来提高去噪的效果。 在传统的CNN中,输入图像经过一系列卷积和池化操作,通过多个卷积层和全连接层进行特征提取和分类。然而,在图像去噪任务中,图像中不同区域的噪声水平可能不同,因此传统的CNN在对整个图像进行处理时可能无法有效地去噪。 为了解决这个问题,注意力机制被引入到CNN中。注意力机制可以将网络的注意力集中在图像的不同区域,以便更有针对性地去噪。该模型通过引入注意力模块,在每个卷积层之后对特征图进行处理,以增强重要区域的特征表示。这种注意力机制能够在去噪任务中更好地保留图像的细节和边缘,提高去噪效果。 具体来说,注意力模块通过学习图像的空间注意力和通道注意力来选择性地加权特征图。空间注意力用于选择特征图中的重要区域,而通道注意力用于选择特征图中的重要特征通道。通过这种方式,网络可以更加自适应地选择图像中重要的特征表示,从而更好地去除噪声。 实验证明,使用注意力机制的CNN模型在图像去噪任务上具有更好的性能。它在不同的噪声水平和噪声类型下都能够有效地去噪,并且能够保持图像的细节和结构。因此,这个注意力引导的CNN模型在图像去噪任务中具有一定的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值