#超全#行人重识别数据集整理，附下载链接和介绍

最新推荐文章于 2025-04-28 14:30:52 发布

啥都亿点点的研究生

最新推荐文章于 2025-04-28 14:30:52 发布

阅读量5.8k

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/lichaoqi1/article/details/125395756

版权

数据集名称

时间

图片尺寸

(总)行人数量/图像

训练集人数/图像

query集人数/图像

gallery 集人数/图像

摄像头数量

图片说明

简介

图片命名

下载链接

文献

1、Market-1501

2015

64x128

1501/32668

751/12936

750/3368

750/19732

5+1（高清+低清）总摄像头数量：6

白天拍摄，视频序列截取，校园场景，年龄分布为青年人居多，服装以夏季搭配为主。行人之间表现为强关联性

Market-1501 数据集在清华大学校园中采集，夏天拍摄，在 2015 年构建并公开。它包括由6个摄像头（其中5个高清摄像头和1个低清摄像头）拍摄到的 1501 个行人、32668 个检测到的行人矩形框。每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像。训练集有 751 人，包含 12,936 张图像，平均每个人有 17.2 张训练数据；测试集有 750 人，包含 19,732 张图像，平均每个人有 26.3 张测试数据。3368 张查询图像的行人检测矩形框是人工绘制的，而 gallery 中的行人检测矩形框则是使用DPM检测器检测得到的。该数据集提供的固定数量的训练集和测试集均可以在single-shot或multi-shot测试设置下使用

以 0001_c1s1_000151_01.jpg 为例
1） 0001 表示每个人的标签编号，从0001到1501；
2） c1 表示第一个摄像头(camera1)，共有6个摄像头；
3） s1 表示第一个录像片段(sequece1)，每个摄像机都有数个录像段；
4） 000151 表示 c1s1 的第000151帧图片，视频帧率25fps；
5） 01 表示 c1s1_001051 这一帧上的第1个检测框，由于采用DPM检测器，对于每一帧上的行人可能会框出好几个bbox。00 表示手工标注框

Market-1501-v15.09.15.zip_免费高速下载|百度网盘-分享无限制

《Scalable Person Re-identification: A Benchmark》

2、DukeMTMC-reID

2016

不确定

1812/36411

702/16522

702/2228

（702+408）/17661，408人只在单摄像头出现，所以只干扰项

8个高清摄像头

白天拍摄，美国杜肯大学校园环境拍摄，主要以青年人群为主。

DukeMTMC 数据集是一个大规模标记的多目标多摄像机行人跟踪数据集。它提供了一个由 8 个同步摄像机记录的新型大型高清视频数据集，具有 7,000 多个单摄像机轨迹和超过 2,700 多个独立人物，DukeMTMC-reID 是 DukeMTMC 数据集的行人重识别子集，并且提供了人工标注的bounding box。

0014_c2_f0053184.jpg 为例介绍数据集的命名规则：
0014 是行人 ID 编号
c2 (camera 2)表示图片采集自第二个摄像头
f0053184 (frame 53184) 表示图片是摄像头 2 的第 53184 帧

https://pan.baidu.com/s/1jS0XM7Var5nQGcbf9xUztw 验证码：bhbh

《Performance Measures and a Data Set for Multi-Target, Multi-Camera Tracking》

3、MSMT17

2018

不确定

4101/126441

1041/32621

3060/11659

3060/82161

总摄像头：15个，户外摄像头12个，室内摄像头3个

（1）数目更多的行人、图片数量更多、摄像头数；
（2）复杂的场景和背景；
（3）涵盖多时段，因此有复杂的光照变化；

数据集采用了安防在校园内的15个摄像头网络，其中包含12个户外摄像头和3个室内摄像头。为了采集原始监控视频，在一个月里选择了具有不同天气条件的4天。每天采集3个小时的视频，涵盖了早上、中午、下午三个时间段。因此，总共的原始视频时长为180小时。Faster RCNN作为行人检测器，三位人工标注员用了两个月时间查看检测到的包围框和标注行人标签。

无

https://pan.baidu.com/s/1Cp6S8cKs_rhQXXpCaBF5-g 验证码：8qvv

《Person Transfer GAN to Bridge Domain Gap for Person Re-Identification》

4、CUHK03

2014

不确定

1360/13164

1160/？

100/？

总摄像头10： 5对摄像头

香港中文大学校园采集，

CUHK03 数据集是行人重识别领域广泛使用的一个数据集，它的行人图片采集自香港中文大学（CUHK）校园的 5 对不同视角的摄像头。CUHK03 数据集有很多版本：有 Matlab 文件格式的，也有图片格式的。有包含 1360 个行人的，也有 1467 个行人的。

以图片 1_023_1_01.png 为例解析数据集 CUHK03.tar.gz 的命名规则：

1 代表摄像头的组别，共有 5 组摄像头
023 代表行人 ID 编号
1 代表同组摄像头的 1 号摄像头，一组摄像头共有 2 个摄像头
01 代表行人的第一张图片，一个行人至多有 10 张图片，前 5 张来自一个摄像头，后 5 张来自另一个摄像头

CUHK Re-ID

《DeepReID: Deep Filter Pairing Neural Network for Person Re-identification》

5、PRid_2011

2011

不确定

200/？

摄像头数量为：2

Austrian Institute of Technology大学采集

该数据集是与奥地利技术研究所合作创建的，目的是测试人员重新识别方法。该数据集包括从两个不同的静态监控摄像机记录的多个人物轨迹中提取的图像。来自这些摄像机的图像包含了视角的变化以及光照、背景和摄像机特性的明显不同。由于图像是从轨迹中提取的，所以每个人在每个摄像头中都有几个不同的姿势。我们从一个视图中记录了475个人的轨迹，从另一个视图中记录了856个人的轨迹，其中245个人出现在两个视图中。我们过滤掉了一些严重遮挡的人，在每个摄像机视图中只有不到五个可靠图像的人，以及由跟踪和注释错误引起的损坏图像
该数据集包含了两个版本的数据集，一个是single-shot scenario，另外一个是multi-shot scenario。multi-shot scenario下每人包含多张图像（每个摄像机下至少包含五张图像）。确切的数字取决于人的步行路径，速度以及遮挡情况。single-shot scenario下仅包含一张每人轨迹的图像（随机选择）。

ICG - PRID11

《Person Re-Identification by Descriptive and Discriminative Classification》

6、SYSU-30K

2020

288*x

30508/29606918

28310/27227388

1000/1000

2198/478731

不确定

SYSU-30k 数据集包含剧烈的光照变化,遮挡,低像素,俯视拍摄的摄像机,真实场景下复杂的背景

目前没有公开发布的「弱监督」行人重识别数据集。为了填补这个空白，研究者收集了一个新的大规模行人重识别数据 SYSU-30k，为未来行人重识别研究提供了便利。他们从网上下载了许多电视节目视频。考虑电视节目视频的原因有两个：第一，电视节目中的行人通常是跨摄像机视角，它们是由多个移动的摄像机捕捉得到并经过后处理。因此，电视节目的行人识别是一个真实场景的行人重识别问题；第二，电视节目中的行人非常适合标注。在 SYSU-30k 数据集中，每一个视频大约包含 30.5 个行人。
研究者最终共使用的原视频共 1000 个。标注人员利用弱标注的方式对视频进行标注。具体地，数据集被切成 84,930 个袋，然后标注人员记录每个袋包含的行人身份。他们采用 YOLO-v2 进行行人检测。三位标注人员查看检测得到的行人图像，并花费 20 天进行标注。最后，29,606,918(≈30M)个行人检测框共 30,508（≈30k）个行人身份被标注。研究者选择 2,198 个行人身份作为测试集，剩下的行人身份作为训练集。训练集和测试集的行人身份没有交叠。

000028313_c2_2.jpg 000028313-行人ID

GitHub - wanggrun/SYSU-30k: SYSU-30k Dataset of "Weakly Supervised Person Re-ID: Differentiable Graphical Learning and A New Benchmark" https://arxiv.org/abs/1904.03845

《Weakly Supervised Person Re-ID: Differentiable Graphical Learning and A New Benchmark》

7、iLIDS-Vid

2014

64*128

300/600

300/?

178/?

2个摄像头

多摄像机CCTV网络下的机场到达大厅拍摄,人们之间的服装相似性，摄像机视点之间的光照和视点变化，背景杂乱和随机遮挡

LIDS-VID 数据集是一个人的重新识别数据集，它涉及300个不同的行人，在公共开放空间的两个不相交的相机视图中被观察到。它包括300个不同个体的600个图像序列，每个人有一对来自两个摄像机视图的图像序列。每个图像序列具有可变长度，范围从23到192个图像帧，平均数为73。ILIDS-VID 数据集是非常具有挑战性的，因为人与人之间的服装相似性，照相机视图中的光线和视点变化，混乱的背景和随机遮挡。

https://pan.baidu.com/s/1cmuyHFXplnnw9OHZuHXgNw 提取码：exuf

《Person Re-Identification by Video Ranking. 》

8、CUHK-SYSU

2015

8432/18184

5532/11206

2900/6978

不确定

街道快照和电影。在街头拍摄中，使用手持摄像机在数百个场景中收集图像，并尝试尽可能多地包括视点，照明，分辨率，遮挡和背景的变化。我们选择电影和电视剧作为收集图像的另一个来源，因为它们提供了更多样化的场景和更具挑战性的视角。

该数据集是一个大规模的人员搜索基准，包含18184张图像和8432个身份。
根据图像来源，数据集可以分为两部分：街道捕捉和电影：在街拍中，图像通过手持摄像机收集，跨越数百个场景，并尝试包括视点、照明、分辨率、遮挡的变化，同时，我们选择影视剧作为另一种图像采集来源，因为它们提供了更多样化的场景和更具挑战性的视角。
该数据集为人的重新识别和行人检测提供注释。每个查询人出现在至少两个图像中，并且每个图像可以包含多个查询人和多个背景人。数据被划分为训练集和测试集。训练集包含11206幅图像和5532个查询人，测试集包含6978幅图像和2900个查询人。

《End-to-End Deep Learning for Person Search》

9、RAiD

2014

128*64

43/6920

它是一个4摄像头数据集，包含2个室内和2个室外摄像头。摄像机编号为 1、2、3 和 4，其中摄像机 1 和 2 在室内，而摄像机 3 和 4 在室外

加州大学河滨分校的温斯顿 ·钟大厅

该数据集是在加州大学河滨分校的温斯顿钟楼大厅收集的。它由2个室内和2个室外摄像机收集。摄像机编号为1,2,3和4，其中摄像机1和2在室内，而摄像机3和4在室外。这些摄影机套图中有43个行人人，共有6920张图像。在这43个人中，有41个人出现在所有4个摄像机中，其中在相机3中没有id为8的行人，在相机4中没有id为34的行人。

dataset.images - 大小为 128x64x3x6920 的 4-D 矩阵，其中包含调整为 128x64 的检测值（3 个通道中的 RGB 值）。Images-一个大小为128x64x3x6920的4-D 矩阵，其中包含大小调整为128x64的检测（3个通道中的 RGB 值）
dataset.masks - 大小为 128x64x6920 的 3-D 二进制矩阵，其中包含上述检测的前景掩码。掩码-一个大小为128x64x6920的三维二进制矩阵，其中包含上述检测的前景掩码
dataset.cam - 一个 6920 长度矢量，其中每个元素都给出了相应检测所属的相机编号。例如，dataset.cam（70）是 dataset.images（：，：，：，70）（以及 dataset.masks（：，：，：，70））所属的相机编号。
dataset.personID - 一个 6920 长度向量，其中每个元素都给出相应检测的人员 ID。例如，dataset.personID（70）是检测 dataset.images（：，：，：，70）（以及 dataset.masks（：，：，：，，70））的人员 ID。PersonID-一个6920长度的向量，其中每个元素给出相应检测的 person id。例如，datet.PersonID （70）是检测数据集.images （：，：，：，70）的人 ID （还有 datet.遮罩（：，：，：，70））
dataset.personSubsetImageIndex - 一个 6920 长度向量，其中每个元素给出对应于特定摄像机和人员 ID 的检测编号。例如 dataset.cam（70） = 1， dataset.personID（70） = 2 和 dataset.personSubsetImageIndex（70） = 20。这意味着第 70 张图像对应于摄像头 1 中人 2 的第 20 次检测。
dataset.count - 提供所有摄像机的检测总数。Count-给出所有相机的检测总数
dataset.peopleCount - 提供数据集中存在的唯一人员的总数。People Count-给出数据集中独特个体的总数
dataset.name - 数据集的名称。

GitHub - dasabir/RAiD_Dataset: Re-Identification Across Indoor-Outdoor Dataset (RAiD) - Introduced in the work "Consistent Re-identification in a Camera Network" (ECCV 2014)

《Consistent Re-identification in a Camera Network》

10、MARS

2016

256*128

1261/1191,003

？/509,914

/1980

清华大学校园内放置了6台近同步相机，五台1080×1920高清摄像机和一台640×480 SD摄像机

清华大学校园

MARS（运动分析和再识别集）数据集用于基于视频的人的再识别。它是Market-1501数据集的扩展[43]。在采集过程中，我们在清华大学校园内放置了6台近同步相机。有五台1080×1920高清摄像机和一台640×480 SD摄像机。MARS由1261个不同的行人组成，他们被至少2个摄像头捕获。

0065 C1 T0002 F0016.jpg为例。
0065表示的行人的id，也就是 bbox_train文件夹中对应的 0065子文件夹名；
C1表示摄像头的id，说明这张图片是在第1个摄像头下拍摄的（一共有6个摄像头）；
T0002表示关于这个行人视频段中的第2个小段视频（tracklet）；
F0016表示在这张图片是在这个小段视频（tracklet）中的第16帧。在每个小段视频（tracklet）中，帧数从 F0001开始。

网盘链接链接: https://pan.baidu.com/s/1XKBdY8437O79FnjWvkjusw
提取码: ymc5

《Mars: A video benchmark for large-scale person re-identification. In European Conference on Computer Vision》

11、LPW

2018

2731/592438

1975/?

756/?

1072/?

总摄像头数量为：11,场景一：3，场景二和三分别是4

首先，数据集不仅具有较大的规模，而且通过手动删除检测到的错误或跟踪错误的图像，它是干净的。

其次，行人探测器生成，在符合真实情况的检测到的图像中，错位是常见的。

第三，数据集是在拥挤的场景中收集的，并且有更多的遮挡。它在以下几个方面更具挑战性：角色的年龄从童年到成年不等;人类的姿势是多种多样的，包括跑步和骑自行车

数据集收集在三个不同的拥挤场景中。在第一个场景中，放置了三个摄像机，在另外两个场景中放置了四个摄像机。在收集过程中，设置了相同参数的摄像机被放置在街道的两个交叉点。标记为“野外行人”由 2，731 个不同的行人组成，我们确保每个带注释的身份都由至少两个摄像机捕获，以便可以执行跨摄像机搜索。总共生成 7，694 个图像序列，每个序列平均生成 77 帧。

Labeled Pedestrian in the Wild

《Region-based Quality Estimation Network for Large-Scale Person Re-identiﬁcation》

12、PKU SketchRe-ID

2018

200/400

两个横向摄像头拍摄

人物素描+真实照片

北京大学草图 Re-ID 数据集由国家视频技术工程实验室(NELVT)北京大学建立。该数据集包含200个人，每个人有一个草图和两张照片。每个人的照片都是在白天由两个横向摄像机拍摄的。我们手动裁剪原始图像(或视频帧) ，以确保每张照片包含一个特定的人。我们一共有5位艺术家来画所有人的素描，每个艺术家都有自己的绘画风格。

PKU SketchRe-ID Dataset – Multimedia Learning Group

《Cross-Domain Adversarial Feature Learning for Sketch Re-identification》

13、ThermalGAN

2018

516/15118

总共包括16个摄像头，

包括15118个对齐的516个 ID 的彩色和热图像对。这对彩色和热成像是由16个 FLIR ONE PRO 相机拍摄的。所有摄像头都位于购物中心区域。照相机 # 2,9,13位于地下通道与弱光条件。相机 # 1,3,7,8,10,12,14位于入口处，呈现白天和夜间的图像。花园里安装了15、16号摄像头。其余的摄像头都在商场里。

ThermalGAN | Drupal

《ThermalGAN: Multimodal Color-to-Thermal Image Translation for Person Re-Identification in Multispectral Dataset》

14、RPIfield

2018

不确定

112/601581

12个同步的室外摄像头,1440*1080的高清摄像头

RPIfield 数据集是在美国伦斯勒理工学院收集的一个新的多摄像机多镜头 re-id 数据集。每个人的图像的时间戳被保留。为了自动采集人物图像，我们使用了现成的人物检测器，基于聚合信道特征(ACF)算法

https://pan.baidu.com/s/1TsPRkRQwI_i88zPQqGC3oQ 取代码: RPIf

《RPIField: A New Datasef for Temporally Evaluating Person Re-Identification》

15、Airport

2017

768*432

9651/39902

6个摄像头拍摄

机场复杂情景，增加了，视角变化，照明变化，检测错误，遮挡，背景干扰，分辨率，

作为 ALERT 视频分析工作的一部分，东北大学和伦斯勒理工学院的研究人员开发了一个注释数据集，准确地反映了现实世界中人的重新识别问题。该数据集是利用美国一个活跃的商业机场中央安全检查点安装的六个摄像头的视频数据构建的。

ALERT Airport Re-Identification Dataset

《A Systematic Evaluation and Benchmark for Person Re-Identification: Features, Metrics, and Datasets》

16、PRW

2016

932/34304

数据集是Maretk1501数据集的扩展。作者不再只提供边界框，而是释放了带有注释的完整帧。因此，人们可以评估不同人探测器的影响。

PRW-v16.04.20.zip_免费高速下载|百度网盘-分享无限制

《Person Re-identification in the Wild》

17、PKU

2016

128*64

114/1824

57/？

2个摄像头

包括行人8个不同方向

KU-Reid 数据集: 该数据集包含114个个体，其中1824幅图像是从两个不相交的相机视图中捕捉到的。对于每个人来说，在一个相机视图下从八个不同的方向捕捉八个图像，并标准化为128x48像素。这个数据集也被随机分成两部分。一个包含57个人进行培训，另一个包含57个人进行测试。据我们所知，PKU-Reid 数据集是第一个从所有八个方向捕获人的外观的数据集

065_01_1.png，065-行人id, 01-摄像头id, 1-方向角度

http://pan.baidu.com/s/1qXp9zOS

《Orientation driven bag of appearances for person re-identification》

18、CASIA Gait Database（B）

2005

124/？

是一个大型的多视图步态数据库，创建于2005年1月。共有124名受试者，步态数据来自11个视图。分别考虑了三种变化，即视角、服装和携带条件的变化。除了视频文件，我们还提供从视频文件中提取的人体图像。

xxx-mm-nn-ttt.avi’，其中

xxx: subject id, from 001 to 124. 主题 ID，从001到124
mm: walking status, can be 'nm' (normal), 'cl' (in a coat) or 'bg' (with a bag). Mm: 步行状态，可以是‘ nm’(正常) ，‘ cl’(穿外套)或‘ bg’(带包)
nn: sequence number. 序列号
ttt: view angle, can be '000', '018', ..., '180'. 视角，可以是’000’,’018’，... ,’180’

Center for Biometrics and Security Research

19、HDA Person Dataset

2015

85/64028

13个摄像头，包括（VGA,HD,全高清分辨率）

HDA 数据集是用于高清晰度监控研究的多摄像机高分辨率图像序列数据集。18个摄像头(包括 VGA，HD 和全高清分辨率)在一个典型的室内办公场景中在一个繁忙的时间(午餐时间)在30分钟内同时录制了80多人。在当前版本(v1.1)中，13个摄像头已经被完全标记。

对于我们提供的每个摄像头。按顺序编号的 jpg 帧和一个.Txt 文件

HDA Person Dataset – VisLab – Computer and Robot Vision Laboratory

20、SAIVT-Softbio

2016

152/？

8个摄像头