Abstract
我们提出了一种密集语义对齐( densely semantically aligned)的行人再识别框架,他从根本上解决了由姿势/拍摄视角变化、人体检测不完整、遮挡等引起的身体匹配对不齐的问题。通过利用行人图像的密集语义估计,我们构建了一系列densely se-mantically aligned part images(DSAP-images),这些图像中空间位置相同的区域有相同的语义特征。我们设计了一个双流网络,包含一个main full image流(MF-Stream)和一个densely semantically-aligned guiding stream (DSAG-Stream)。DSAG-Stream网络以DSAP-images作为输入,充当一个调节器,引导MF-Stream学习原始图片的 densely semantically aligned特征。在测试过程中,DSAG-Stream被禁用了,只使用MF-Stream,这样可以让预测时候的计算更有效率更鲁棒。据我们所知,我们是第一个使用细粒度语义来解决Reid中对不准的问题的。我们的方法Rank-1准确率在cuhk03数据集上达到78.9%、在cuhk01数据集上达到90.4%和在Market1501数据集上达到95.7%,优于最先进的方法。
1. Introduction
P-reid目标是匹配不同视角下的行人,或者是不同场景下的行人。Reid有很多应用,如跨境追踪。
这项任务充满挑战性,因为人的姿势和视角变化很大,人的检测不完整,背景杂乱,遮挡和照明差异等都会影响检测效果。图1展示了多种因素导致的人体图像空间对不准的现象。对不准问题是一个关键的挑战,并且会影响结构性能。
图1,介绍了对不准的问题,其中包括(a)相机视角变化,(b)人体姿态变化,(c)行人检测不完整,(d)局部区域对不准,(e)嘈杂的环境,(f)遮挡
一些模型使用卷积网络端到端的去学习全局特征,但是全局特征的表达能力受限,因为:(1)缺少局部区域差异的重视,(2)也没有采取任何方法措施来处理错位对不准的问题。
近年来,提出了很多方法来处理对不准的问题。为了使网络跟关注于局部区域,许多方法直接将行人图像采用刚性方式切割来学习局部区域。还有一些方法使用人体姿态来定位局部区域,来学习对准的局部区域特征。但是用姿态对准的方法太粗糙,以至于不能很好的对齐。如图1中(d)所示,即使局部区域大体上对准了,但是局部区域内部还是有一些对不起的问题,即同一个空间位置的行人语义信息也不尽相同。所以设计一种Reid结构可以充分学习到对齐了的密集的语义信息至关重要。
本文中,我们提出了一种密集语义对齐的网络(也就是说,行人图像中大量的语义信息都可以对齐),可以从根本上使得到细粒度的语义对齐,并且使网可以学习语义对齐的特征。
首先,我们提出需要在一个标准(canonical)的空间得到密集的语义对齐效果来处理Reid中对不准的问题。我们受到了DensePose的启发,其可以预测行人像素级别的细粒度语义。区别于只有几个粗糙关节点的姿态模型,丰富语义在二维人图像和基于三维的人体标准表示之间建立了密集的对应关系。如图2所示,一个人体3D模型的表面被分成24个语义区域。每一个区域内,每部分的语义被一个二维坐标系UV表示。根据UV坐标系中估计的丰富语义的值,使原始输入图片在UV空间中被变形成拥有24个密集语义局部对齐的图片(DSAP-images)。用这种方法,不同视角、姿态、背景的行人图像的语义信息就可以对齐了。因此,这种表达方式在处理对不准的问题上拥有内在优势。更好的是,不仅大体上的局部区域能对齐了,那些局部区域中像素级别的内容也对齐了。
其次,我们提出一个新框架,该框架充分利用丰富的语义对齐表示来处理Reid任务。对于密集语义估计,由于2D图像是3D图像的投影,所以3D图像会有一半的面积是在2D图像上看不到的(如图2,24个DSAP-images,其中好多DSAP-images没有有效的图像信息)。此外,还会经常出现估计误差,如检测缺失,尤其是在分辨率低、图像模糊的Reid数据集上。所有,由于图像存在信息的噪声和缺失,设计一个有效的网络来充分利用语义信息仍然是一个较大的挑战。
图2,展示了2D人体图像和UV空间中基于表面标准表示的密集对应关系。人体表面被划分成24个局部区域,每一个区域都可以被变形为一个DSAP-image,并且对于不同的行人图像,细粒度语义在空间上是完全对齐的。
在我们的设计中,我们使用密集语义对齐信息使得网络从原始图片中来学习语义对齐特征。如图3中所示,我们的网络包含一个main full im-age stream(MF-Stream)和一个 densely semantically aligned guiding stream (DSAG-Stream)。对于MF-Stream,使用完整行人图像作为输入,对于DSAG-Stream,使用从密集语义对齐模块获得的24 DSAP-images作为输入。我们并不是想让两个Stream都具有Reid的能力,而是让DSAG-Stream作为一个调节器,引导MF-Stream去学习语义对齐特征,我们通过对MF-Stream和DSAG-Stream的特征进行元素上的融合,并对融合施加监督来实现这一效果。使用端到端你的联合训练可以使得两个Stream相互作用共同优化。
总之,我们作出了三大贡献:
- 提出使用密集语义对齐来进行Reid,以解决对不齐的问题。
-
提出了一种基于密集语义对齐的深度学习框架,该框架是第一个利用细粒度语义来有效解决行人语义错位问题的框架。我们提出了一个有效的融合和监督方法,以促进语义对齐特征的学习。它可以在学习过程中实现DSAG-Stream和MF-Stream之间的交互,这大大增强了MF-Stream的能力,即使它的输入图像没有语义对齐。
-
DSAG-Stream作为一个调节器,可以在测试过程中被去掉,这样可以避免性能浪费,同时可以去掉对密集语义估计器效果的依赖,使得推理模型计算效率更高,更具有鲁棒性。
我们进行了大量的消融研究,实验表明我们提出的密集语义对齐结构是非常有效的。我们在market-1501、CUHK03和CUHK01数据集上实现了最先进的性能,以及Dukemtmc REID的竞争性能。在Cuhk03数据集上,我们的性能明显优于以前的方法,在Rank-1/mAP准确率方面至少提高了10.9%/+7.8%。
2. Related Work
人体局部区域/姿态对齐方法概述。空间错位现象是Reid面临的一个重要困难,普遍存在。在早期的工作中,一些基于块匹配的方法执行块匹配,以解决块级别的错位问题。为了避免外观相近的局部区域块匹配错误,开始使用人体局部和姿态语义,以便在语义对应区域进行相似度匹配。近年来,人体局部/姿态语义被广泛用来定位人体局部区域,以便用来进行进行人体局部区域对齐的深度特征学习和匹配。在一篇文章中,首先检测人体姿态/局部区域,并设计深度神经网络用于学习局部特征表示和全局特征表示。一些论文中所描述的方法依赖于注意力机制,来解决对不准问题。
以上方法都致力于在粗糙的人体局部区域层面处理对不准问题。然而,即使这样做了,每个局部区域里面还是会有对不准的地方。我们的工作就试图去从根本上解决这些对不准的问题。我们的方法与以前的方法主要有三个方面的不同。首先,我们的方法试图充分利用细粒度语义对齐表示。第二,我们利用语义对齐表示,它在整个网络中起到调节器的作用,引导网络从原始图像中学习语义特征。最后,在测试期间,我们并不使用DSAG-Stream,这样做使得网络计算效率提高,鲁棒性更好。
基于局部和全局特征得方法。许多方法同时利用局部特征和全局特征得优点来处理Reid任务。全局特征可以捕获有判别能力得外观特征,但是不能捕获局部特征。因此,使用局部特征作为一种补救措施。Wang等人,设计一个多粒度网络,它由一个全局特征分支和两个局部特征表示分支组成。在一篇文章中,图像特征图被分割成局部条带,并引入shortest path loss 来对齐局部条带。这些方法中都会使用一个共享权重得主干网络用于全局特征学习。然而,对齐问题没有得到解决。于是我们利用密集语义对齐来全系全局特征和局部特征。
联合多损失学习得方法。Zheng等人,提出Reid其实介于图像分类和实例检索之间。分类任务和排名任务是相互补充的。最近一些方法同时优化网络分类损失和ranking损失。类似的我们也利用这种方法。