【ReID】Densely Semantically Aligned Person Re-Identification

锥栗

已于 2023-02-27 18:57:43 修改

阅读量475

点赞数

分类专栏： ReID 文章标签：机器学习计算机视觉深度学习人工智能

于 2020-10-13 20:59:19 首次发布

本文链接：https://blog.csdn.net/fisherish/article/details/108813190

版权

ReID 专栏收录该内容

42 篇文章 25 订阅

订阅专栏

密集语义对齐的行人重识别（DSA-reID），2019 CVPR的一篇工作[1]。DSA-reID在网络中包括全图像主流程main full image stream (MF-Stream)，密集语义对齐引导流程densely semantically-aligned guiding stream (DSAG-Stream)。DSAG流程作为调节器，端到端地来调节MF流程从原图提取的特征学习，这种调节基于3D的UV空间，使得图像上的点对应到3D模型物体的表面，得到24个在语义上对齐的密集语义对齐的图像，从而解决ReID中特征不对齐问题。文章工作在多个benchmark上达到了SOTA。

论文一览：

痛点

ReID存在大量的挑战，诸如摄像机视角变化，人体姿态变化，检测框的缺陷，局部特征不对齐以及遮挡，如下图1：

其中特征不对齐是阻碍ReID发展的主要原因之一。近年来单纯使用CNN来提取图像全局特征表达的端到端识别方式受到了以下两个方面的限制：

1）缺少对局部特征差异的关注

2）使用显式机制解决不对齐问题的缺失（相对于CNN的feature representation，语义信息是显式的）

而当前工作常用的part-based model没办法很好的对齐人体。使用姿态关键点学习局部对齐特征的方式由于还处在粗粒度的阶段，没法得到满意的对其结果。因而设计一个高效学习密集语义对齐信息的架构就很有必要了。

文本提出的方法基本实现了细粒度语义对齐，和语义对齐在ReID领域的特征学习。解决了由姿态视角变化，检测框偏差，遮挡等现象带来的不对齐问题。

首先文章提出了一个密集语义对齐的框架，在2D行人图像和基于3D表面空间的规范人体表征之间建立了密集联系。不仅仅粗粒度的身体部位区域被对齐，且一个区域的内容也会在像素层级上被密集对齐。如图2：

3D空间特指UV空间，UV空间是一种3D建模概念，UV是将图像上每一个点精确对应到模型物体的表面。在点与点之间的间隙位置由软件进行图像光滑插值处理。原始输入图像会在UV空间中变形为24个在语义上对齐的密集语义对齐部分图像（densely semantically aligned part images (DSAP-images)）。

其次，文章提出了一个框架来指导密集语义对齐表征。其利用密集语义对齐信息来驱动主网络从原图像中学习语义对齐特征。端到端地联合训练框架，使得这两个流程能够交互和共同优化。

模型

构建DSAP图像Construction of DSAP images

模型流程图如下图3所示，包含了两个流程：全图主流程the main full image stream
(MF-Stream)和密集语义对齐引导流程the densely semantically aligned guiding
stream (DSAG-Stream)，基于密集语义对齐模块，文章构建了24个密集语义对齐的部分图像densely semantically aligned part images (DSAP-images)，作为DSAG-Stream的输入。这24个图像映射到人体模型通过二维的UV空间表示的，相同的UV坐标表着同样的语义，因此，这样的表示可以将位置量化，
通过密集的切分表示，达到想要的对齐效果。

文章使用在COCO数据集训练好的DensePose网络在2D图像上分割24个人体语义，对每一个检测出的身体部分的每一个像素都提供UV空间的二维坐标值（数值从0到1），如图2。基于这些语义将每个图像部分弯曲成SxS的DSAP图像，然后将RGB像素复制到弯曲后图像的相应位置。

作者认为这样的方法有三个优势：

1）克服了各种视角和姿态变化和检测不准确导致的空间不对齐。

2）由于对人体语义选取的缘故，可以回避由背景带来的各种干扰。

3）可以免受遮挡带来的外观干扰，因为语义并没有在遮挡对象中被估计。

但同时DSAP图像还有一些问题：

1）DSAP图像的有效内容太稀疏。

2）密集语义估计器并不是最优。

3）背景被移除的同时，一些有效信息也被移除（比如红色背包）。

联合训练框架Joint Learning of Our Network

为了上述的缺陷（作者也承认，如果单独使用DSAP图像方法将导致结果提升失败），作者设计了端到端训练的网络来驱使语义对齐特征信息从原图中学习。这个设计的一个优点，就是调节器将不再需要，这使得计算更高效。且这也是移除了对密集语义估计器的依赖，提高了系统鲁棒性。

这个端到端的训练网络通过融合学习DSAG流程和MF流程的特征来实现，为此要在两个流程中设计网络进行global和local的特征提取。

DSAG流程包括多分支子网络(MB-Ns)和一个由global branch和local branch组成的小的Head网络。网络结构如下表1：

子网络MB-Ns将body part图像提取local特征信息，将它们在通道维堆叠，这里有两个合并级别，以逐步合并相关身体部位的特征，利用人体的对称性，使视角更鲁棒并减少分支的数量。文章选择对local信息合并做8分离的feature map。一对左右对称部分的语义在UV空间中在语义上对齐，在第一级合并中逐个元素地添加特征。在第二级合并中，文章合并对应于前后对称部分的两个分支，最终获得8个分支，如图4所示。

Head网络包括local和global两个分支。global branch经过pooling得到2048维特征，global特征有：

在这里插入图片描述

local branch，输出由8个256维的向量堆叠而成，local特征有：

在这里插入图片描述

在MF流程，经过backbone输出的特征作为之后MF流程中的local branch和global branch的输入，其中Head网络结构与DSAG流程相似，MF流程中的local branch和global branch的输出不仅用于融合，还将用于ReID主任务监督。

特征融合则为MF流程的local对DSAG的local，MF流程global对DSAG的global，一一对应进行element wise的求和。

在这里插入图片描述

loss设计如图3所示，两路特征融合之后分别求ID loss和Triplet hard loss即可。

实验

在各个benchmark上的SOTA实验如下：

网络各结构的分离实验如下：

在这里插入图片描述

密集语义和稀疏语义的分离实验：

在这里插入图片描述

对于特征融合的分离实验：

在这里插入图片描述

写作

本文写作非常好，写的很有逻辑，很标准。科研论文虽然是八股文，但是能经历了百年的发展而来，有它的合理性。我把它Introduction的写作思路跟一下，与诸位共勉：

首先，按照国际惯例：先介绍一下ReID，和ReID面临的问题/痛点：

然后着重强调一下本文方法所要解决的问题，你解决了什么痛点，就要把这个痛点的“严重性”写出来。放大要解决的challenge，就是放大你的贡献。最简单放大怎么做？就是“别人没做到的，我做到了”。

开始讲其他人工作，主要遵循：

A方法做了xxx。However，它们没解决好这个痛点，存在xxx劣势。

B方法做了xxx。However，它们没解决好这个痛点，存在xxx的劣势。

C方法做了xxx。However，它们没解决好这个痛点，存在xxx的劣势。

…

说完了别人的劣势，最后给出本文工作的优势：别人没解决的，我们解决了，我们的工作不仅能xxx，还能xxx。如下图：

然后，开始简单介绍本文工作的第一个部分，首先提出了基于UV空间映射的密集语义对齐方法，其通过xxx（原理）来达到xxx（优势、特点、能力）的效果：

承上启下，自问自答：
However，引入UV空间的映射会带来问题，它包括：

问题1）xxx，

问题2）xxx，

问题3）xxx。

…

因此，为了解决这些问题，文章提出了一种模型框架，更好地挖掘行人重识别的语义对齐信息表征。

这就引出了要介绍的第二个部分，其通过xxx（原理）来达到xxx（优势、特点、能力）的效果：

最后，按照国际惯例，列一下contributions：

齐活。

参考文献

[1] Zhang Z, Lan C, Zeng W, et al. Densely semantically aligned person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 667-676.