行人再识别：Mask-guided Contrastive Attention Model for Person Re-Identification

最新推荐文章于 2024-04-19 17:01:56 发布

Shawn0901

最新推荐文章于 2024-04-19 17:01:56 发布

阅读量2k

点赞数

分类专栏：论文阅读笔记文章标签： CVPR2018

本文链接：https://blog.csdn.net/wangxinsheng0901/article/details/82251717

版权

论文阅读笔记专栏收录该内容

15 篇文章 3 订阅

订阅专栏

摘要

1.引进二值化的行人分割轮廓图作为额外输入，并与彩色图像合成为四通道的新输入，然后设计一种基于分割轮廓图的对比注意模型来学习背景无关的行人特征。在此基础上，提出一种区域级别的三元组损失函数，分别来约束来自全图区域、行人身体区域、背景区域的特征，提出的损失函数可以让来自全图区域和行人身体区域的特征在特征空间靠近，并远离背景区域，最终达到去除背景的作用。

2.提出一种特殊的样本来扩充数据集：对抗式遮挡样本。

3.提出一种不需要行人对齐的方法（深度空域特征重建）来匹配不同尺寸大小的行人图像。借鉴字典学习中重建误差来计算不同的空域特征图的相似度。按照这种匹配方式，利用端到端学习方法增大来自于同一个人的图像对的相似度，反之亦然。该方法不需要对齐，对输入图像尺寸没有限制。

关于行人的二值分割图（binary body mask）

对于行人再识别任务来说，二值分割图一方面可以在像素级别上对背景进行消除，另一方面二值图还包含了身体的轮廓信息，该信息可以被认为含有重要的姿态信息。但实验发现，直接使用二值图遮掩的图像进行行人再识别任务，其效果反而不如采用原始图像下的效果。导致该结果的原因可能是直接使用二值遮挡图像可能会影响图像的结构信息和平滑性，另外，错误的分割图像可能包含杂乱背景或者丢失重要的信息。因此，在特征级别上进行背景的移除可能会是一个更好的选择。

整体框架

由于基于Image-net所训练的网络，如CaffeNet、ResNet-50等，输入图像的通道只有三个（RGB），而在本文中由于在RGB图像的基础上附加了一个mask通道，与上述pre-trained 的网络不兼容，因此选取了MSCAN（multi-scale context aware network）结构进行重新训练。

如上图(Fig.2)所示，MSCAN网络包含四个stage以及一个全连接层，而本文提出的框架包括三个主要分支，一是学习完整图像特征的部分，二是学习身体区域特征的部分，三是学习背景区域特征的部分。除此之外还有一个提供注意力机制的对比注意力子网络，如虚线框内所示。对于给定的一张RGB-M图像，在上图的stage-2将会得到大小为96×40×16图像的特征f_stage2，将该特征作为对比注意力网络的输入将会得到一对互补的attention maps, 分别对应body attention 和background attention。其中，body-aware attention map可由下式计算得到：

对应的，background-aware attention map:

利用相应的map便可得到body-aware和background-aware的特征：

上式中的运算符表示空间加权操作。

公式(1)中获得body-aware attention map的卷积参数通过下式损失函数实现：

其中M(i,j)是提前获取的图像分割图像。

Fig.2中最后部分的triplet loss为：

在MGCAM网路训练完毕后，在利用一个siamese网络进一步对其fine-tune:

损失函数:

Shawn0901

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
行人再识别：Mask-guided Contrastive Attention Model for Person Re-Identification

摘要1.引进二值化的行人分割轮廓图作为额外输入，并与彩色图像合成为四通道的新输入，然后设计一种基于分割轮廓图的对比注意模型来学习背景无关的行人特征。在此基础上，提出一种区域级别的三元组损失函数，分别来约束来自全图区域、行人身体区域、背景区域的特征，提出的损失函数可以让来自全图区域和行人身体区域的特征在特征空间靠近，并远离背景区域，最终达到去除背景的作用。2.提出一种特殊的样本来扩充数据集：...
复制链接

扫一扫