Scalable Person Re-identification: A Benchmark(可扩张的行人重识别:基准)-1

感谢Google翻译大力支持。

摘要:

本文为行人重识别提供一个新的高质量数据集,命名为命名为“Market-1501”。一般地,当前的数据集:1)在规模有限; 2)由手绘bboxes,这种设置在实际使用中是不可用的; 3)每个身份(封闭环境)只有一个基本图像和一个查询图像。

为了解决这些问题,提出的market-1501数据集在三个方面特点。首先,它包含超过32,000带注释的bboxes,以及超过500K图像的分散器集,它是迄今为止最大的人REID数据集。其次,使用可变形零件模型(DPM)作为行人检测器来生成Market-1501数据集中的图像。 第三,我们的数据集是在一个开放系统中收集的,每个身份在每个摄像机下都有多个图像。

作为文章的次要贡献,受大规模图像搜索的最新研究启发,本文提出了一种无监督词袋描述因子(符)。 我们将人的重新识别视为图像搜索的一项特殊任务。 在实验中,我们证明了所提出的描述符在VIPeR,CUHK03和Market-1501数据集上具有竞争准确性,并且在大规模500k数据集上具有可扩展性。

1.简介

本文考虑了人物重新识别的任务。给定一个探测图像(查询),我们的任务是在图库(数据库)中搜索包含同一人物的图像。

我们的工作有两个方面。 首先,大多数现有的人员重新识别数据集在数据集规模或数据丰富性方面都有缺陷,特别是,身份数量通常限制在数百个以内。 这使得在大规模数据下测试算法的鲁棒性变得不可行。

此外,相同身份的图像通常由两台摄像机捕获;每个身份在每个摄像机下都有一个图像,因此查询和相关图像的数量非常有限。 此外,在大多数数据集中,行被手工标注的,手绘的bbox(bbox)很好地对齐。 但实际上,当使用行人检测器时,被检测人员可能会出现未对准或部分丢失的情况(图1)。 另一方面,行人检测器在真正例(True positive)的 (bboxes)会产生由复杂背景引起的错误警报或闭塞(图1)。 这些干扰因素可能会对识别准确性产生不可忽视的影响。 因此,一旦理想数据集符合实际,当前方法可能会偏向理想场景(ideal settings),并且其有效性可能会受损。 为了解决这个问题,重要的是要引入更接近实际场景(realistic settings)的数据集。

第二,事实证明,基于局部特征的方法可以有效地进行行人重识别。 关于“查询--搜索”模式,这可能与基于词袋(Bag-of-Words,BoW)的图像搜索模型相兼容。 但是,某些最新(state of the art)的行人重新识别方法依赖于蛮力特征匹配(brute-force)。 尽管获得了良好的识别率,但是这一系列方法的计算效率较低,这限制了其在大规模应用中的潜力。 在BoW模型中,使用预先训练的码本(code book,有个背景建模方法叫CodeBook)将局部特征量化为视觉单词(visual words,这个词不知道如何翻译)。 因此,图像由通过TF-IDF方案加权的视觉单词(Visual Words)直方图表示。 在BoW模型中,不是在图像之间执行全面的视觉匹配,而是将局部特征聚合到全局矢量中。

考虑到以上两个问题,本文做出了两个贡献。 主要贡献是创建一个新的行人重新识别数据集,名为“market-1501"(图1,见原论文)。 它包含由6个摄像机,收集的1,501行人。 我们进一步添加一个互不相干的有500K的干扰项集图像。 据我们所知,Market-1501是一个的最大人数的re-id数据集,具有32,668 + 500K bbox和3,368个查询图像。 它与现有的数据集有三个方面区别:用DPM做检测bbox,包含干扰项图像以及每个身份具有多个查询,多正确标记(ground-truth)。 因此,该数据集提供了更现实的基准。 为了进行准确性评估,我们建议使用平均精度(mAP),它比与常用的“累积匹配特征”(CMC)曲线相比,测量更加全面。

作为次要贡献,受最新图像搜索系统的启发,提出了无监督的BoW表述(representation)。在生成关于训练数据的码本(codebook)后,每个行人图像都表示为视觉单词(visual word)直方图。在此步骤中,集成了许多技术,例如根描述符(root descriptor),反例证据(negative evidences),突发性加权(burstiness weighting),avgIDF等。此外,还采用了一些进一步的改进,即弱几何约束,高斯蒙版,多次查询和重新排序。通过简单的点积作为相似性度量,我们表明提出的BoW表示法可产生具有竞争力的识别精度,同时具有快速的响应时间。

2.已有的研究(Related work)

近年来,对于行人重新识别,无论监督模型还是非监督模型都进行了广泛的研究。在判别模型(discriminative models)(和生成模型(Generative model)一起是分别是监督学习的两大研究方向)中,经典的SVM(或RankSVM)和boosting是常见的判别方法(popular choice)。列如,赵等人使用RankSVM学的滤波响应的权重和补充匹配分数(learn the weights of filter responses and patch matching scores using RankSVM)。Gray等人利用bootsing在本地descriptors集合中进行特征选择。最近,李等人提出一个深度学习网络以共同优化所有管道(pipeline)步骤。This line of work(可能指pipeline)虽然有利于减少多视图变化的影响,但需要费力注释,尤其是在系统中添加了新摄像机时。另一方面,在无监督模型中,Farenzena等人利用行人的对称性和不对称性提出对称驱动的局部特征累积(the Symmetry Driven Accumulation of Local Features ,SDALF)算法。 Ma等人使用Fisher向量(Fisher Vector)将局部特征编码为全局向量。利用行人图像中的显着性信息,Zhao等人提出将较高的权重分配给稀有颜色,这一想法非常类似于图像搜索中的“文档反转频率”(the Inverse Document Frequency,IDF)。本文提出了一种适用于不同相机网络的无监督方法。

另外,自从引入SIFT 描述因子(descriptors )和BoW模型以来,图像搜索领域得到了极大的发展。在过去的十年中,已经开发了无数种方法来提高搜索性能。例如,为了提高匹配的准确性,Jégou等人在二值化的SIFT( binary SIFT)特征中加入倒排文件( inverted file)。同时,还可以通过互补描述符之间的索引级特征融合来产生精细的视觉匹配。由于BoW模型没有考虑局部特征的空间分布(这也是人员重新识别的问题),另一个研究方向是对空间约束进行建模。空间编码是通过偏移图检查图像之间的几何一致性,而张等人发现( discover)视觉短语(visual phrases)来编码空间信息。对于排名问题(ranking problems),有效的重新排名步骤通常会带来改进。刘等人设计一个“单发(one shot)”反馈优化方案,该方案可使用户快速优化搜索结果。郑等人建议利用分数列表的配置文件为各种特征自适应分配权重( propose to leverage the profile of the score lists to adaptively assign weights to various features)。在文章【 X. Shen, Z. Lin, J. Brandt, S. Avidan, and Y. Wu. Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking. In CVPR, 2012. 2, 5】中,排名靠前的图片再次用作查询,最终分数是各个分数的加权总和。 当存在多个查询时,可以通过平均或最大操作(max operations)形成一个新查询。 本文将几种最先进的技术集成到图像搜索中,从而形成了具有竞争力的行人重识别系统。

3.The Market-1501数据集

3.1数据集简介

本文介绍了一个新的行人重识别数据集“ Market-1501”数据集。 在数据集收集过程中,校园超市前面总共放置了六个摄像机,其中包括五个1280×1080高清摄像机和一个720×576 SD摄像机。 这些相机之间存在重叠。

该数据集包含包含1,501个身份(identities)的32,668个bbox。 由于开放的环境,每个身份的图像最多可以由六个摄像机捕获。 我们确保每个带注释的身份至少由两个摄像机捕获,以便可以执行跨摄像机搜索。 总体而言,我们的数据集具有以下特色属性。

首先,虽然大多数现有数据集都使用手工裁剪的bbox,但Market-1501数据集采用了最先进的检测器,即可变形零件模型(DPM)[9]。 基于“完美”的手绘bbox,当前的方法并未完全考虑行人图像的未对准,这是基于DPM的bbox中始终存在的问题。 如图1所示,在检测到的图像中,未对准和部分缺失是常见的。

其次,除了假阳性(false positive)bbox,我们还提供误报。我们注意到,CUHK03数据集[20]也使用了DPM检测器,但是就检测器而言,CUHK03中的bbox相对较好。实际上,检测到的大量bbox会非常“糟糕”。考虑到这一点,对于每个检测到的bbox都提供一个手绘正确信息的注释bbox(类似于论文[20]:注,指的CUHK03数据集论文),与[20]不同,对于检测到的bbox和手绘bbox,计算重叠区域与联合区域的比率。在我们的数据集中,如果面积比大于50%,则DPM bbox标记为“好”(在目标检测中常用[9]: P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan.Object detection with discriminatively trained part-based models. TPAMI, 32(9):1627–1645, 2010. );如果该比率小于20%,则DPM bbox标记为“干扰因素”;否则,bbox被标记为“垃圾” [27]( J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman. Object retrieval with large vocabularies and fast spatial matching. In CVPR,pages 1–8, 2007),这意味着该图像对re-id准确性的影响为零。此外,一些明显的虚假警报bbox也被标记为“干扰因素”。在图1中,最上面两行显示了“好”图像的示例,而最下面一行则显示了“干扰者”图像和“垃圾”图像。这些误报图像的姿势,分辨率等发生很大的变化。

第三,每个身份可能在每个摄像机下具有多个图像。 因此,在跨摄像机搜索期间,每个身份可能有多个查询和多个标记为正确的数据(Ground truths)。 这与实际用法是一致的,特别是在可以充分利用多个查询来获取有关感兴趣人员的更具区别性的信息的情况下。 在性能评估方面,对于re-id系统,一种完美的方法应该能够找到查询标识的所有实例。从这个意义上讲,我们的数据集为在开放系统中应用的方法提供了测试平台。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值