PTGAN翻译

 摘 要

        尽管人再识别(ReID)的表现已经得到显着提升,但真实场景中的许多具有挑战性的问题还没有得到充分研究,例如,复杂的场景和光照变化,视点和姿态变化以及大量身份相机网络。为了便于研究克服这些问题,本文提供了一个新的数据集,称为MSMT17,它具有许多重要特性,例如:

        1)原始视频由部署在室内和室外场景中的15摄像机网络拍摄; 

        2)视频封面很长一段时间,并且呈现复杂的光照变化;

        3)它包含当前最多数量的注释标识,即4,101个标识和126,441个包围盒。

我们还观察到,数据集之间通常存在领域差距,在不同数据集上进行训练和测试时,会导致严重的性能下降。这导致可用的培训数据无法有效地用于新的测试领域。为了减轻标注新训练样本的昂贵成本,我们提出了一个人际转移生成对抗网络(PTGAN)来弥合领域差距。综合实验表明,PTGAN可以大大缩小领域差距。

1. 介 绍

        人员重再识别(ReID)目标是匹配并返回来自摄像机网络收集的大型图集的探测者图像。 由于ReID在安全和监控方面的重要应用,引起了学术界和工业界的广泛关注。 由于深度学习的发展和许多数据集的可用性,人员ReID性能得到显着提升。 例如,Market1501 上单一查询的Rank-1准确率已从43.8%提高到89.9%。 CUHK03 标记数据集的Rank-1准确率从19.9%提高到88.5%。 第二部分将详细介绍当前的方法。


图1:CUHK03和PRID之间的域内差距示意图。 显然,CUHK03和PRID呈现不同的风格,例如明显的照明,分辨率,人种,季节,背景等,导致在CUHK03上训练和在PRID上测试时准确度低。

        尽管当前ReID数据集的表现令人满意,但仍然存在一些阻碍人员ReID应用的未解决问题。 首先,现有的公共数据集不同于真实场景中收集的数据。 例如,当前数据集包含有限数量的身份或在受限环境下进行。 目前最大的DukeMMC-reID [40]包含少于2,000个身份,并呈现简单的照明条件。 这些限制简化了人员的ReID任务并有助于实现高精度。 在实际场景中,人员ReID通常在室内和室外场景中部署的摄像机网络中执行,并处理长时间拍摄的视频。 因此,真正的应用程序必须应对挑战,如大量身份和复杂的照明和场景变化,目前的算法可能无法解决。

        我们认为的另一个挑战是,在不同人员ReID数据集之间存在领域差距,即对不同人员ReID数据集的训练和测试导致严重的性能下降。 例如,在PRID [10]上测试时,在CUHK03 [20]上训练的模型只能达到2.0%的Rank-1精度。 如图1所示,领域差距可能是由不同的光照条件,分辨率,人种,季节,背景等原因造成的。这个挑战也阻碍了人ReID的应用,因为可用的训练样本不可能 有效地用于新的测试领域。 由于注释人员ID标签的代价很高,因此需要进行研究,以缩小或消除领域差距。

        为了便于在现实场景中对应用进行研究,我们收集了一个新的Multi-Scene MultiTime人员ReID数据集(MSMT17)。 与现有数据集不同,MSMT17被收集并注释以提供几项新功能。 1)原始视频由部署在室内和室外场景中的15摄像机网络拍摄。 因此,它呈现出复杂的场景转换和背景。 2)视频覆盖很长一段时间,例如每月四天,每天早上,中午和下午各三小时,因此呈现复杂的照明变化。 3)它目前包含最多数量的带注释的身份和边界框,即4,101个身份和126,441个边界框。 据我们所知,MSMT17目前是人ReID最大和最具挑战性的公共数据集。 更详细的描述将在第三节中给出。

        为了解决第二个挑战,我们提出通过将数据集A中的人员转移到另一个数据集B来弥合领域差距。来自A的被转移人员希望保持他们的身份,同时呈现类似的样式,例如背景,照明等, 与B中的人员一起使用。我们用一个人员转移生成敌对网络(PTGAN)为这个转移过程建模,该网络受Cycle-GAN [41]的启发。但 与Cycle-GAN [41]不同,PTGAN考虑对人前景的额外限制,以确保在传输过程中身份的稳定性。 与Cycle-GAN相比,PTGAN可以生成高质量的人物图像,在这里人物身份得到保留,样式得到有效转换。 在几个数据集上的广泛的实验结果表明PTGAN有效地减少了数据集之间的域差距。

        我们的贡献可以概括为三个方面。 1)收集新的具有挑战性的大规模MSMT17数据集并发布。 与现有数据集相比,MSMT17定义了更现实,更具挑战性的人员ReID任务。 2)我们提出人员转移以利用来自不同数据集的现有标记数据。 它有可能减轻新数据集上的昂贵数据注释,并且可以在真实场景中轻松培训人员ReID系统。 提出了一种有效的PTGAN模型用于人员转移。 3)本文分析了阻碍人ReID应用的几个问题。 所提出的MSMT17和算法有可能促进关于人ReID的未来研究

2.相关工作

        这项工作与描述人学习ReID和GAN的图像转换密切相关。 我们在本节中简要总结这两项工作。

    2.1人员再识别中的描述符学习

        基于深度学习的描述符相对于大多数人ReID数据集的手工特征显示出显着的优势。 一些工作从分类模型的整个图像中学习深度描述符,其中每个人的ID被视为一个类别。 其他一些工作将验证模型与分类模型结合起来学习描述符。 Hermans等人表明,三重损失有效地提高了人ReID的结果。 同样,陈等人提出四联网络来学习表示。

        上述作品学习全局描述符,并忽略可能对区分人员很重要的详细线索。为了明确地利用地方线索,Cheng等人提出了一个基于部分网络的多通道来学习判别式描述符。 Wu等人发现手工标记的特征可能与深层特征相辅相成。他们将全局图像划分为五个固定长度的区域。对于每个区域,提取直方图描述符并与全局深度描述符连接。虽然上述工作取得了良好的成绩,但他们忽略了固定身体部位划分造成的错位问题。针对解决这个问题,魏等人利用Deepercut检测三个粗体区域,然后学习全局局部对齐描述符。在文献[37]中,更细粒度的部分区域被局部化,然后被馈送到拟议的主轴网络中用于描述符学习。同样,李等人采用空间变换网络(STN)[13]来检测潜在的部分区域,然后学习这些区域的描述符。

    2.2 基于GAN的图像间转换

        由于Goodfellow等人提出了GAN。 GAN 的许多变体已被提出来处理不同的任务,例如自然风格转移,超分辨率,从素描到图像的生成,图像到图像的转换等。其中,图像到图像的转换引起了很多关注。在[12]中,Isola et al提出条件对抗网络来学习从输入到输出图像的映射函数。然而,这种方法需要配对的训练数据,这在很多任务中很难获得[41]。针对解决不成对的图像到图像翻译任务,朱等人。 [41]提出循环一致性损失来训练未配对的数据。另外,作品[34,14]提出了一个类似的框架来解决这个任务。我们提出的PTGAN与Cycle-GAN [41]类似,它还执行图像到图像的转换。不同的是,应用了对人身份的额外限制,以确保传输的图像可用于模型训练。郑等人。 [40]采用GAN生成用于ReID人体数据增强的新样本。他们的工作在动机和方法上都与我们不同。据我们所知,这是GAN为人ReID进行人员转移的早期工作。

3.MAMT17数据集

    3.1 先前数据集的概述

        当前的人ReID数据集显着推动了人ReID的研究。 如表1所示,DukeMMC-reID [40],CUHK03 [20]和Market-1501 [38]涉及比VIPeR [8]和PRID [10]更多的相机和身份。 足够的训练数据使得开发深度模型成为可能,并且在个人ReID中显示出他们的判别力。 虽然目前的算法已经在这些数据集上达到了很高的准确率,但是人们的ReID在实际场景中还远未得到解决和广泛应用。 因此,有必要分析现有数据集的局限性。


        与实际情况下采集的数据相比,目前的数据集在四个方面具有限制性:1)身份和摄像机数量不够大,特别是与真实监控视频数据相比时。 在表1中,最大的数据集仅包含8个摄像头并且少于2,000个身份。 2)大多数现有数据集只包含单个场景,即室内或室外场景。 3)大多数现有数据集都是由短时间的监控视频构建而没有明显的照明变化。 4)它们的包围盒可以通过昂贵的手工标记或过时的检测器如可变形零件模型(DPM)[4]生成。 这些限制使得有必要为人员ReID收集更大更真实的数据集。

    3.2 对MSMT17的说明

        针对上述限制,我们通过尽可能模拟真实场景来收集新的多场景长时间人员ReID数据集(MSMT17)。我们利用校园内部署的15台摄像机网络。该摄像机网络包含12台室外摄像机和3台室内摄像机。我们在一个月内选择不同天气条件的4天进行视频采集。每天早上,中午和下午分别拍摄3小时的视频用于行人检测和注释。我们最终的原始视频集包含180个小时的视频,12个室外摄像机,3个室内摄像机和12个时隙。更快的RCNN [26]用于行人边界框检测。三个贴标签者通过检测到的边界框并注释ID标签2个月。最后,对4 410个身份的126 441个边界框进行注释。图3显示了MSMT17的一些统计数据。图2显示了来自MSMT17的样本图像并进行了比较。与现有数据集相比,我们将MSMT17中的新功能归纳为以下几个方面:

            1)更多的身份,边界框和相机。 据我们所知,MSMT17目前是最大的人ReID数据集。 如表1中的比较所示,MSMT17包含126,441个边界框,4,101个标识,其明显大于先前数据集中的标识。

            2)复杂的场景和背景。 MSMT17包含最多数量的相机,即放置在不同位置的15个相机。 它也用室内和室外视频构建,这在以前的数据集中没有考虑过。 这些考虑因素导致复杂背景和场景变化,也使MSMT17更具吸引力和挑战性。

            3)多个时隙产生显著地照明变化。 MSMT17收集了12个时间段,即早上,中午和下午四天。 它比以前的数据集更好地模拟真实场景,但会带来严重的照明变化。

            4)更可靠的bounding box 检测器。 与手绘和DPM检测器相比,FasterRCNN [26]是实际应用中边界框检测的更好选择,例如更易于实现且更精确。


图2:CUHK03,Market1501,DukeMMC-reID和MSMT17中人物图像的比较。 每列都显示两个相同身份的示例图像。 很显然,MSMT17提出了一个更具挑战性和现实人员ReID任务。



    3.3 Evaluation Protocol

        我们将数据集分别随机分为训练集和测试集。 如果在以前的数据集中将这两部分等分,我们将训练和测试比率设置为1:3。 我们使用这种设置是因为在真实场景中使用了昂贵的数据注释,因此想要鼓励更有效的训练策略。 最后,训练集包含1,041个身份的32,621个bounding boxes,测试集包含包含3,060个身份的93,820个bounding boxes。 从测试集合中,随机选择11659个边界框作为查询图像,并且其他82161个边界框被用作图库图像。

        与大多数以前的数据集类似,我们利用累积匹配特征(CMC)曲线来评估ReID性能。 对于每个查询边界框,可以返回多个真正的肯定。 因此,我们也将人员ReID作为检索任务。 因此平均精度(mAP)也被用作评估度量。

4. PTGAN


        在数据集B上的人员在识别任务,为了更好地利用数据A的训练集,我们提出通过将A中的人转移到B来弥补领域差距。如图1所示,由于多种原因,不同数据集呈现不同样式,例如 背景,照明条件,分辨率等。想象一下,如果A中的人被B的相机捕获,那么这些人的图像的风格将与B的风格一致。我们的人员转移试图模拟这个过程,即, 学习传递函数为1)确保被传输的人物图像显示与目标数据集相似的风格,并且2)在传输过程中保留人物的外观和身份线索。

        这个传输任务看起来很简单,例如,可以通过从A中裁剪前景人物并将其粘贴到B上的背景上来完成。但是,基于规则的算法很难处理领域间隙的多种结果。 此外,在B上可能会有复杂的样式变化,例如图1中PRID的两个摄像头之间的不同背景和光照条件。我们的算法受GAN模型的普及启发,GAN模型在生成所需图像样本方面已被证明是有效的。 因此我们设计了一个人员转移GAN(PTGAN)来执行从A到B的人员转移。

        基于以上讨论,PTGAN被构建为满足两种约束,即样式转换和个人身份保持。 样式转换的目标是学习不同人物数据集之间的样式映射函数。 个人身份保持的目标是确保一个人的身份在转移后保持不变。 由于一个人的不同转移样本被视为具有相同的人员ID,因此对人员身份的约束对于人员ReID培训很重要。 因此,我们制定了PTGAN的损失函数,即:


        其中LStyle表示风格损失,LID表示身份损失,λ1是两次损失之间折衷的参数。

        ReID数据集不包含配对人员图像,即来自不同数据集的同一人员的图像。 因此,风格转移可以被看作是不成对的图像到图像的翻译任务。 由于Cycle-GAN在不成对的图像到图像转换任务中的良好性能,我们使用Cycle-GAN来学习数据集A和B之间的样式映射函数。假设G表示从A到B的样式映射函数, G表示从B到A的样式映射函数。DA和DB分别是A和B的样式鉴别器。 风格转移学习的目标函数可以表述如下:


        LGAN代表标准对抗性损失[7],L cyc代表周期一致性损失[41]。 有关这些损失函数的更多详细信息,请参阅Cycle-GAN [41]。

        完全考虑风格转移可能会导致转发人员图像中模糊的人员ID标签。 因此,我们计算身份损失以确保传输数据中人员ID标签的准确性。 人的身份损失是通过首先获得一个人的前景面具来计算的,然后在人员转移之前和之后评估人的前景的变化。 给定A的数据分布为a〜pdata(a),B的数据分布为b〜pdata(b)。 身份损失的目标函数可以表述如下:


        其中G(a)代表来自图像a的被转移人物图像,并且M(a)代表人物图像a的前景面具。

        由于其在分割任务上的良好性能,我们使用PSPNet [36]来提取人物图像上的mask。 在具有移动前景和固定背景的视频监控数据上,可以应用更精确和更高效的前景提取算法。 可以证明,PTGAN不需要目标数据集B上的人员身份标签。样式鉴别器DB可以用B上的非标识人员图像进行训练。因此,PTGAN非常适合真实场景,其中新的测试域具有 有限的或没有标签的培训数据。

        我们展示了PTGAN在图4中生成的一些样本结果。与Cycle-GAN相比,PTGAN生成质量更高的图像。 例如,人的外观保持不变,风格被有效地转移到PRID相机1上。 自动生成阴影,道路标记和背景,与PRID相机1上的相似。 同样有趣的是,PTGAN仍然可以很好地处理由PSPNet产生的噪声分割结果。 这意味着,PTGAN对分割错误也很有效。 更详细的PTGAN评估将在5.4部分给出。


图4:PTGAN和Cycle-GAN从CUHK03到PRID-cam1的传输图像的比较。 第二行显示PSPNet的分割结果。 粉色区域被分割为人体区域。

5. 实验

    5.1 数据集

        除了MSMT17之外,我们的实验还采用了四种广泛使用的人ReID数据集。

        DukeMMC-reID [40]由1,812个身份和36,411个边界框组成。 使用包含702个身份的16,522个边框来训练。 其余的身份包含在测试集中。 DukeMMC-reID也简称为Duke。

        Market-1501 [38]包含1,501个身份和32,668个边界框。 训练集包含12,936个包含751个身份的边界框。 其余750个身份被包含在测试集中。 Market-1501也被称为Market。

        CUHK03 [20]包含由DPM和hand生成的1,467个身份和28,192个边界框。 继工作[32]之后,使用了26,264个包含1,367个身份的包围盒进行训练,并且使用了包含100个身份的1,928个包围盒进行测试。

        PRID [10]由来自两个摄像机的934个身份组成。 我们的实验使用两台相机共享的200人的边界框作为测试集。

    5.2 实验细节

        PTGAN使用类似于Cycle-GAN [41]中的网络架构。 对于生成网络,设计了两个步幅2卷积,9个残余块和两个步幅负二分之一分步交错卷积。 鉴别器网络中包含两部分。 PatchGAN [12]被采纳为一个部分。 PatchGAN将图像中的70×70补丁是真实还是伪造。 对于另一部分,在前景人物上计算转移图像和输入图像之间的L2距离。

        在PTGAN中采用了Adam Solver [15]。 对于生成网络,学习率设置为0.0002。 鉴别器网络的学习速率被设置为0.0001。 我们设λ1= 10,λ2= 10。输入图像的大小为256×256。 最后,我们训练PTGAN 40个epochs

    5.3 在MSMT17上的性能

        如第三节所述,MSMT17具有挑战性,且接近现实。 本节通过测试MSMT17上的现有算法来验证此声明。

        我们审阅了2017年和2016年发表的最先进的方法。在这些方法中,Wei等人提出了GLAD[30]在市场上获得最佳表现,并由苏等人提出了PDC [27]在CUHK03.1上达到最佳性能。因此,我们使用由其作者提供的代码和模型来评估MSMT17上的这两种方法。 在大多数人ReID作品中,GoogLeNet [28]通常被用作基准模型。 因此我们也使用GoogLeNet [28]作为我们的基准。

        我们总结的实验结果到表2。如表中所示,MSMT17的基线只能达到23%的mAP,明显低于市场上的mAP 51.7%[6]。 很明显,PDC [27]和GLAD [30]通过考虑额外的部分和区域特征,大大超过了基线性能。 然而,GLAD取得的最佳表现,例如34%的mAP,仍然大大低于其在其他数据集上的报告表现,例如市场上的73.9%。 上述实验清楚地显示了MSMT17的挑战。


        我们还在图5中显示了一些样本检索结果。从样本中,我们可以得出结论,虽然具有挑战性,但MSMT17定义的ReID任务是现实的。 请注意,在真实场景中,不同的人可能会呈现类似的服装线索,并且同一人的图像可能会呈现不同的照明,背景和姿势。 如图5所示,假阳性样本显示与查询人的相似外观。 一些真实的肯定会从查询中呈现明显的照明,姿势和背景。 因此,我们认为MSMT17是一个有价值的数据集,有助于未来人类ReID的研究。


    5.4 人员转移表现

        人员转移从数据集A执行到B.所传输的数据因此用于在B上进行培训。为确保有足够的传输数据用于训练B,我们测试了两种情况下的人员转移,即1)从大型A 到小B,2)从大A转移到大B.在下面的实验中,我们使用A提供的人员转移培训集。

        5.4.1 从大数据集转移到小数据集

        该部分测试从CUHK03和Martket传输的人员数据到小数据集PRID的性能。 如图1所示,PRID上两台摄像机拍摄的人物图像显示出不同的风格。 因此,我们分别对这两个摄像机进行人员转移,即PRID-cam1和PRIDcam2。

        我们首先执行从CUHK03到PRIDcam1和PRID-cam2的人员转移。 转移人物图像到PRID-cam1的样本显示在图4中。我们另外显示了从CUHK03转移到图6中PRID-cam2的人物图像的样本。显然,转移人物图像显示给这两个相机显示 不同的风格,这与PRID上的风格一致。 我们还将市场分别转移到PRID-cam1和PRID-cam2。 来自Market的转移人员图像的样本显示在图7中,其中可以分别观察到与图4和图6中相似的结果。



        进一步评估是否通过PTGAN降低了领域差距。我们对使用CUHK03和Market训练集训练的GoogLeNet和训练有素的训练集GoogLeNet进行比较。实验结果总结在表3中。如表中所示,在CUHK03上训练的GoogLeNet仅在PRID上达到2.0%的Rank-1准确性,这意味着CUHK03和PRID之间存在显着的域间隙。通过PTGAN传输的训练数据,GoogLeNet实现了显着的性能提升,例如Rank-1准确性从2.0%提高到37.5%,Rank-10准确性从11.5%提高到72.5%。类似的改进可以从Martket的结果中观察到,例如,在转移人后,Rank-1准确性从5.0%显着提高到33.5%。实质的性能改进清楚地表明了缩小的领域差距。而且,这个实验表明,即使没有使用PRID上的标记数据,我们也可以使用来自其他数据集的训练数据在其上实现合理的性能。

表3:在PRID上测试但用不同训练集训练的GoogLeNet的性能。 *表示传输的数据集。 例如,下标cam1表示传送的目标数据集PRID-cam1。 “cam1 / cam2”意味着使用PRID-cam1中的图像作为查询集,并使用PRID-cam2中的图像作为图库集。


        从表3中,我们还观察到一个有趣的现象,即将两个摄像机上传输的数据集合在一起可以获得更好的性能。 这可能是由于两个原因:1)组合数据集有更多的训练样本,从而有助于训练更好的深度网络,2)它能够学习两台相机之间的风格差异。 在组合数据集中,每个人图像在camera1和camera2上分别具有两个不同样式的传输样本。 由于这两个样本具有相同的人物识别标签,因此该训练数据可强制网络学习,以增强摄像机1和摄像机2之间风格变化的稳健性。

        5.4.2 从大数据集转移到大数据集

        这部分模拟了实际应用中普遍存在的更具挑战性的场景,即没有提供大型测试集上的可用训练数据。 因此,我们通过在三个大型数据集(即Duke,Market和CUHK03)之间进行人员转移来测试PTGAN的绩效。

        大的人员ReID数据集通常包含大量相机,因此执行到每个单个相机的人员传输成本很高。 因此,与第5.4.1节中的实验设置不同,我们不区分不同的摄像机,并用一个PTGAN直接将人员图像传输到目标数据集。 显然,这不是人员转移的最佳解决方案。 我们的实验结果总结在图8中。很显然,在传输数据集上训练的GoogLeNet比在原始训练集上训练的人更好。 样本传送的图像如图9所示。显然,虽然我们使用简单的传送策略,但PTGAN仍可生成高质量的图像。 作为我们未来在第二部分的工作,第六节将讨论可能的更好的人员转移到大型数据集的解决方案。


        5.5  在MSMT17上执行人员转移

        我们在MSMT17上进一步测试PTGAN。 我们使用在第5.4.2节中相同的策略进行人员转移。 如表4所示,PTMAN有效缩小了MSMT17与其他三个数据集之间的领域差距。 例如,分别从Duke,Market和CUHK03进行人员转移后,Rank-1的准确性分别提高了4:7%,6:8%和3:7%。


        在实际情景中,测试集通常很大,标记的训练数据数量有限。因此,我们在这种情况下测试人员转移的有效性。我们首先使用表5中的MSMT17的不同部分的训练数据显示人ReID表现。从表4和表5的比较可以看出,10%的MSMT17训练集与来自Duke的转移训练集有相似的表现,例如,两者都达到约11.5%〜11.8%的Rank-1准确度。因此,来自Duke的16,522个传输图像与MSMT17上的2,602个注释图像实现了相似的性能。我们可以大致估计6.3个传输的图像相当于1个带注释的图像。这因此有效地减轻了新数据集上数据注释的成本。传输的数据然后与MSMT17上的训练集相结合。如表5所示,Rank-1准确度分别通过结合Duke,Market和CUHK03的传输数据分别不断提高1.9%,5.1%和2.4%。


6. 结论和讨论

        本文提供了一个大规模的MSMT17数据集。 MSMT17在照明,场景,背景,人体姿势等方面提供了大量变体,并且是最大的人ReID数据集。与现有的数据集相比,MSMT17定义了一个更现实,更具挑战性的ReID任务。

        PTGAN被提议为一项关于人员转移的原创工作,以弥补数据集之间的领域差距。大量的实验表明,PTGAN有效地减少了领域差距。不同的相机可能会呈现不同的风格,使用一种映射功能难以执行多种风格的转换。因此,第 5.4.2节和第5.5节中的人员转移策略还不是最优的。这也解释了为什么PTGAN在每个单独的目标摄像机上学习的效果在第5.4.1节中表现更好,更好的策略是考虑相机之间的风格差异以获得更稳定的映射功能。我们未来的工作将继续研究更大,更有效的大型数据集转移策略。



  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值