Re-Identification with Consistent Attentive Siamese Networks阅读笔记

最新推荐文章于 2022-10-12 15:44:27 发布

MindAndHand

最新推荐文章于 2022-10-12 15:44:27 发布

阅读量2.4k

点赞数

文章标签： attention 注意力一致性学习行人重识别阅读笔记孪生网络

本文链接：https://blog.csdn.net/qq_35226955/article/details/100147758

版权

Re-Identification with Consistent Attentive Siamese Networks

Meng Zheng, Srikrishna Karanam, Ziyan Wu, and Richard J. Radke 2019 CVPR

1. Motivation

空间定位和视点不变性表示学习对于鲁棒的交叉视点匹配仍然是一个关键的、尚未解决的问题。本文提出一个 attention驱动的Consistent Attentive Siamese Network(CASN)解决这一问题，特点：仅有ID监督的灵活网络；显示机制强制相同ID图像之间的attention一致性学习；新的Siamese网络以集成attention和attention一致性

2.介绍

在这里插入图片描述
CASN网络是两分支结构：训练时不需要除ID外的任何其他信息和特殊设计的结构就能产生注意力区域；显示强制同一人的这些注意力区域保持一致；将注意力和注意力的一致性作为学习过程中的一个明确而有原则的部分；学习跨视点匹配的鲁棒性表示。

贡献：

空间定位出感兴趣的行人部分，端到端，只需要ID监督
强制同一人的不同图像之间的注意力一致性
在一个网络中联合了注意力一致性和孪生网络
第一个孪生注意力一致性网络，能为ID预测提供更好的理论解释

3. CASN网络

在这里插入图片描述
特征提取模块可以是简单的IDE，也可以是PCB，不限制

3.1. ID模块图2中的两个蓝色框

针对其中一个蓝色框分析，另一个同理。
在这里插入图片描述
预测ID的交叉熵损失为：

其中 $y_{c_n}$ 表示将输入图像 $I_n$ 预测为GT类别 $c_n$ 的概率。

而如果能空间定位(HW维度上表示空间信息，而C表示channel信息)到重要的行人区域，那对reid提点很有帮助，且应该以端到端的方式实现。给定 $I_n$ 和 $c_n$ ，用Grad-CAM【AANet中提到了CAM的用法】从IDE/PCB等模型分类器的预测中获取attention map，记为 $M_n$ ，但此时只关注了少数最具鉴别性的区域，如图4第二列。然后将 $I_n$ 中最具鉴别性的区域( $M_n$ 中的高响应处)给mask掉，得到：
在这里插入图片描述
其中：

表示一种soft的mask方式。于是由于将 $M_n$ mask out掉了，则

表示的其实就是那些原分类器认为“不易于分类”的那些区域，此时，我们用其来做预测，其预测正确的概率为

我们再构建损失：

最小化这个损失时也就让那些原先认为“不易于分类”的区域也慢慢变得受到关注，激活值/响应变大，变得有利于分类，如图4第四列所示。
在这里插入图片描述
attention越大，激活越强，越易于分类。
这就是本文的attention部分，但存在几个问题：

如果只有以上部分，就没有机制保证对同一人的不同图像获得一致的attention。
以上部分没有机制来学习不同摄像机视图的不变性表示。
由于测试图像的ID未知，无法计算其注意力图 $M_n$ ，所以在推理时也就不能通过attention mask操作来获取训练时那些扩大的attention。

于是下面就是本文提到的attention还要一致的Siamese模块用于解决上述问题。

3.2. Siamese模块图2中的红色框

在这里插入图片描述
首先是对学到的两张图像对应的特征进行减操作，即：

首先计算BCE损失(same/diff person？)，损失为：

其中 $z_0$ 和 $z_1$ 分别表示不同人和相同人。而 $z_{c_p}$ 则是预测结果表示相同( $c_p=1$ )或不同人( $c_p=0$ )的概率。

然后就是利用结果实现注意力一致的Siamese Attention机制：
假设BCE分类器预测输入的两张图像为相同人，即以 $z_{c_p}=z_1$ 为例讨论以下问题( $z_{c_p}=z_0$ 时同理)，首先是计算得到：
在这里插入图片描述
然后基于上式，得到：

其中，括号表示做点积运算。然后，

以找到channel重要性权重，其中A1和A2是输入图像 $I_1$ 和 $I_2$ 的最后一个卷积层对应的特征图。进一步，得到attention map为：

于是这一模块的损失为：
在这里插入图片描述
其中， $\alpha$ 表示一个超参，设置为0.2，而不是式中的那个 $\alpha$ 。而

是

经过对齐后再resize的结果。这一模块的过程如图6所示：

整个模型的整体损失为：

4. 实验

4.1 实验细节

在这里插入图片描述

4.2 和SOTA比较

在这里插入图片描述

在这里插入图片描述
很高，而MGN更高，关于MGN可参考：MGN

4.3. 消融

在这里插入图片描述
IA和SA各自提点都很大。

4.4. 示例

在这里插入图片描述

attention变广了且相同人的图像的attention还一致，性能提升很大。

MindAndHand

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
Re-Identification with Consistent Attentive Siamese Networks阅读笔记

Re-Identification with Consistent Attentive Siamese NetworksMeng Zheng, Srikrishna Karanam, Ziyan Wu, and Richard J. Radke 2019 CVPR1. Motivation空间定位和视点不变性表示学习对于鲁棒的交叉视点匹配仍然是一个关键的、尚未解决的问题。本文提出一个 a...
复制链接

扫一扫