行人重识别与人群计数数据集大盘点：推动智能监控研究的利器-CSDN博客

关注公众号，发现CV技术之美

行人重识别（Person re-identification）也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

本文将分享一些行人重识别、人群计数相关的开源数据集，希望能够帮助该领域的研究人员推进研究和应用。

行人重识别

DukeMTMC-reID

DukeMTMC-reID 是 DukeMTMC 数据集的一个子集，一个基于图片的行人重识别数据集。

DukeMTMC 数据集采集自杜克大学的 8 个摄像头，数据集以视频形式存储，具有手动标注的行人边界框。DukeMTMC-reID 数据集从 DukeMTMC 数据集的视频中，每 120 帧采集一张图像构成 DukeMTMC-reID 数据集，共 36,411 张图片。并提供了行人属性（性别/长短袖/是否背包等）的标注。

下载地址：https://github.com/sxzrt/DukeMTMC-reID_evaluation
论文地址：https://arxiv.org/abs/1701.07717

另外，DukeMTMC-attribute 数据集基于 DukeMTMC-reID 数据集，加入了行人属性（如性别gender/是否背包bag等23种属性），提升了 DukeMTMC 行人重识别的效果。

下载地址：https://github.com/vana77/DukeMTMC-attribute

SYSU-30k

SYSU-30k 是弱监督行人重识别数据集，包含 30,000 个行人身份类别，大约是 CUHK03 数据集（1,300 个行人身份）和 Market-1501 数据集（1,500）的 20 倍，是 ImageNet（1,000 个类别）的 30 倍。SYSU-30k 包含 29,606,918 张图像。

SYSU-30k 数据集的特点：

首个弱监督行人重识别数据集；
行人身份数量和图像数量都是同期行人重识别数据集中最大的；
更具挑战性，包括摄像机数量、真实的室内环境和室外场景和不精准的袋级别标注；
其测试集不仅适用弱监督行人重识别问题，也是一个评估真实场景中全监督行人重识别的标准平台。

下载地址：https://github.com/wanggrun/SYSU-30k
论文地址：https://arxiv.org/abs/1904.03845

PETA

PETA （PEdesTrian Attribute）是远距离行人识别数据集，包含了 8705 个行人，共 19000 张图像（分辨率跨度范围大，从 17x39 到 169x365 的大小都有）。每个行人标注了 61 个二值的和 4 个多类别的属性。

下载地址：https://mmlab.ie.cuhk.edu.hk/projects/PETA.html

Market-1501

Market-1501 数据集采集自清华大学校园的 6 个摄像头，一共标注了 1501 个行人。其中，751 个行人标注用于训练集，12936 张图片，750 个行人标注用于测试集，19732 张图片，共计 32668 张图片。

下载地址：http://www.liangzheng.com.cn/
论文地址：https://openaccess.thecvf.com/content_iccv_2015/papers/Zheng_Scalable_Person_Re-Identification_ICCV_2015_paper.pdf

另外，Market1501-attribute 数据集基于 Market-1501 数据集，加入了行人属性（如性别/是否背包等27种属性）。

GitHub：https://github.com/vana77/Market-1501_Attribute

拥挤人群计数

UCF-CC-50

UCF-CC-50 是拥挤人群计数数据集，包含 63075 人，由50 个不同分辨率的图像组成。每个图像中的个体数在 94 - 4543 之间，有些图像包含非常密集的人群，平均包含 1280 人（极度密集）。

该数据集还包含了音乐厅、示威集会、体育馆等多种多样的场景。

下载地址：https://www.crcv.ucf.edu/data/ucf-cc-50/
论文地址：https://www.crcv.ucf.edu/papers/cvpr2013/Counting_V3o.pdf

UCF-QNRF

UCF-QNRF 是同期最大的拥挤人群计数数据集（就标注数量而言），用于训练和评估人群计数和定位方法。包含 1535 张高清图像（分辨率高达2013x2902像素），分别分为 1201 张和 334 张图像的训练集和测试集。

与同类数据集相比，UCF-QNRF 包含多种场景、多个视角、多种光线及密度变化的大规模已标注人体，适用于训练深度卷积神经网络。此外它还包含了建筑、植被、天空和道路等世界各地的户外真实场景，对于研究不同地区人群密度具有重要意义。

下载地址：https://www.crcv.ucf.edu/data/ucf-qnrf/
论文地址：https://www.crcv.ucf.edu/papers/eccv2018/2324.pdf

auDiovISual Crowd cOunting (DISCO)

auDiovISual Crowd cOunting (DISCO) 是视听人群计数数据集，由 1935 张图像和相应的音频片段以及 170270 个标注实例组成，每张图像都有一秒钟的音频和一张密度图。

下载地址：https://zenodo.org/records/3828468
论文地址：https://arxiv.org/abs/2005.07097

❝
趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务，也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人：

📍通过连接全球算力，趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区，趋动云可以帮助AI开发者接入丰富的生态，快速实现最佳实践。