【论文阅读】Salience-Guided Cascaded Suppression Network for Person Re-identification

该论文发表在 CVPR 2020
论文地址

题目:显著导向的级联抑制网络用于行人再识别(不太准确的翻译)

摘要

动机:大部分都关注显著的特征,但是不显著的特征也可能同样的重要

提出了: Salience-guided Cascaded Suppression Network (SCSN) which enables the model to mine diverse salient features and integrate these features into the final representation by a cascaded manner

能够挖掘多样化的显著性特征,并通过级联的方式将这些特征集成融合到最终的特征表示中

  • 我们观察到,以前网络学习到的显著性特征可能会阻碍网络学习其他重要信息。为了解决这一局限性,引入了级联抑制策略,该策略使网络能够逐级挖掘被其他显著特征掩盖的各种潜在的、有用的特征,并融合各级提取的特征作为最后的特征表示;
  • 提出一个显著特征提取(SFE)单元,该单元可以抑制在上一级联阶段学习到的显著特征,然后自适应地提取其他潜在的显著特征,以获得行人的不同线索;
  • 开发了一种有效的特征聚合策略,充分增强了网络提取潜在显著特征的能力。

引言

总体来说,全局特征对整体图像的外观变化和空间位置变化具有较强的鲁棒性。全局特征可能会关注有干扰的区域;也可能忽略一些小的区域,但是对识别有贡献。其他方法有基于块的;基于注意力机制的;

主要的缺陷: 缺乏对如何有效提取不同行人的差异化潜在显著性特征的探索
deep models easily focus on surface distribution regularities rather than more general and diverse concepts, so that they are prone to ignore potential information of pedestrians.(这句话怎么理解呢)
如果将各种特征没区别的链接,那显著的可能掩盖不明显的特征。

提出本文的方法

More specifically, we propose a feature aggregation strategy which consists of a Residual Dual Attention Module (RDAM) and a Non-local Multi-stage Feature Fusion (NMFF) block, to better aggregate low-level and highlevel features of the backbone, and a Salient Feature Extract (SFE) unit to effectively yet efficiently extract diverse potential features. 带有SFE单元的级联抑制可以通过级联抑制更新来提取显著特征。

首先提取全局信息,用SFE(显著特征提取单元)提取显著的局部信息;为了增加信息,某一阶段的显著特征和全局进行融合增强特征识别能力,然后进行抑制得到无显著特征为下个stage作为输入;被抑制后再挖掘其他显著的特征;
(每一个阶段关注不同的显著特征,每个阶段关注的特征是上一个阶段抑制的特征)

在这里插入图片描述

方法

Salience-guided Cascaded Suppression Network (SCSN)
It introduces two new components:
特征融合模块 the feature aggregation modules (residual dual attention module and non local fusion block)
显著特征提取 the salient feature extraction unit
(单看图还挺难看懂的)
在这里插入图片描述

Residual Dual Attention Module

这部分是注意力模块:
The Residual Dual Attention Module (RDAM) consists of a Channel-wise Attention Module(CAM) and a Residual Spatial Attention Module (RSAM)
通道的提取通道特征;残差提取空间维度中语义强的特征; (在两个角度提取注意力特征通道的和空间的,参考那篇论文看看3)

Channel-wise Attention:

通过显式地建模卷积特征的通道之间的相互依赖关系,引入信道注意来增强对不同行人的表征能力。
平均pooling和全局pooling,然后通过注意力机制获得通道注意力图片:
在这里插入图片描述
在这里插入图片描述

Residual Spatial Attention:

引导网络在空间维度上收集更多必要的语义信息,是对信道注意的补充
受到[8]的启发,我们允许前面块的空间注意信息与相邻模块一起传播,称为残差空间聚集,增强了空间相关估计的一致性和鲁棒性。(这句话什么意思)
在这里插入图片描述
在这里插入图片描述

Non-local Multistage Feature Fusion

结合不同的特征到最终的表示中,合并了非局部块融合多级特征,称为NMFF。
(这一部分应该是融合不同的特征的策略)
在这里插入图片描述
在这里插入图片描述
(用一个 6 ∗ 6 ∗ 32 6*6*32 6632的图像去乘以 1 ∗ 1 ∗ 32 1*1*32 1132的卷积核得到的其实是一个6*6的二维矩阵。这样就将通道数32给消除了,相当于给图像降维的操作,而且很迅速。卷积核的通道数必须与源图像的通道数相同。在通常的神经网络中,一般不会单独只使用1个卷积核,当使用的卷积核的个数是filters的时候,最后输出的就是一个 6 ∗ 6 ∗ f i l t e r s 6*6*filters 66filters的立方块)
在这里插入图片描述
在这里插入图片描述
(是构造了相似矩阵么,然后和原来的低级特征相乘;)

Salient Feature Extraction Unit

(主要是显著性特征提取)
在这里插入图片描述
这部分是感知那部分的特征是有区分性的,可分为 salience descriptor and a salience selector。
(这部分应该是在特征已经提取了后选择显著的特征和不显著的特征,那么怎么判断和如何选择?)
(上部分涉及生成特征,这部分涉及选择特征)

salience descriptor

划分特征图。对于一个特征图,高度方面水平切K个stripes,然后经过conv,BN,ReLU(捕获细粒度信息)就变成了 1 ∗ ( H / K ) ∗ W 1*(H/K)*W 1(H/K)W为特征描述子(这就给降维了)。然后再经过一个GAP得到特征向量。(stripes越多越好,应该是信息越多吧)

小科普:假如,最后的一层的数据是10个 6 ∗ 6 6*6 66的特征图,GAP是将每一张特征图计算所有像素点的均值,输出一个数据值,本文也就是每个块出来一个数据值,最后也就是K个数据点组成了特征向量z 维度K*1.
在这里插入图片描述

Salience Selector

z通过 softmax和元素乘积 (显著选择器) 能够得到显著敏感性权重W,共k个。(这部分设计主要是判断每部分的显著性然后可以加抑制)
在这里插入图片描述

Salience-Guided Cascaded Suppression Network

Multi-Stage Suppression

Our proposed SCSN employs ResNet50 as the backbone.
Notice that we modified the downsample strides of Stage3 and Stage4 to 1 to preserve more spatial information(下采样步长为1保存更多的空间信息?特征图会大一些吧,个人理解)
池化:池化很形象的比喻
从主干中提取基本特征后,逐级提取潜在显著特征。
在这里插入图片描述
因此,为了挖掘其他潜在的显著特征,我们在阶段t的输出上应用显著掩模来抑制Sal(Xt)并获得输入(第t+1)
在这里插入图片描述
抑制操作缓解了Sal(Xt)对其他特征的覆盖效应,使潜在信息脱颖而出。因此,网络可以进一步发现更多潜在的特征。
SCSN的详细模型如图2所示。

接下来的阶段将以同样的方式继续挖掘突出特征。图6显示了4个外观相似的难样本的直观显著特征可视化。(难样本)
为了避免信息冗余,我们首先对提高的输出 Y t Y^t Yt应用全局池化,生成一个2048维的特征向量,然后使用FC层减少向量维数。
值得注意的是,在我们的实验中,由于显著抑制操作导致特征均值不稳定,全局阶段使用平均pooling来获得特征向量,后续阶段使用最大pooling(原因)
在这里插入图片描述
(难样本的细节特征挖掘-关注点不同-定位)

Comparison with Feature Erasing

受人类认知过程的启发,“故意”压制我们不感兴趣的区域是为了更好地集中注意力[21]。类似的去除特征的思想也被用于弱监督目标定位和语义分割[15,46]。但是,这些方法的目的和实现与我们的不同。 具体来说,这些方法通过擦除网络已经捕捉到的与物体相关的区域,促使CNN发现更多与物体相关的语义区域,从而进行整体的物体关注。反,提出的SFE单元的目标是提取能够区分一个实例与另一个实例的最显著特征,在基础特征空间中寻找显著子集,而不是像[15,46]那样寻找更完整的特征空间。
比属性的省时省力,姿态需要先验知识,分割容易有噪声
(针对原来的图片进行特征精细化提取-分)

Loss Function

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值