行人重识别数据集之 CUHK03 数据集

CUHK03 数据集是行人重识别领域广泛使用的一个数据集,它的行人图片采集自香港中文大学(CUHK)校园的 5 对不同视角的摄像头。CUHK03 数据集有很多版本:有 Matlab 文件格式的,也有图片格式的。有包含 1360 个行人的,也有 1467 个行人的。不同代码用到的 CUHK03 数据集版本可能不同,刚刚了解 CUHK03 数据集的小伙伴可能对此感到困惑。那本文就来聊一聊各种版本的 CUHK03 数据集。

一、CUHK03 数据集的两种划分

CUHK03 数据集到底包含多少个行人呢? 到底是 1360 个行人,还是 1467 个行人呢?为啥同一个数据集能包含不同数量的行人呢?

经典划分

2014年,论文 DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification 提出了 CUHK03 数据集。文中说数据集共包含 1360 个行人,训练集 1160 个行人,验证集 100 个行人,测试集 100 个行人。实验一共重复执行了 20 次上述随机划分。数据集划分在论文中被称作训练/测试协议,这种测试协议是 single-shot setting,即每个行人在 gallery 里只有一张图片。

新的划分

2017年,论文 Re-ranking person re-identification with k-reciprocal encoding 针对 CUHK03 数据集提出了新的训练/测试协议(数据集划分方法)。在新的测试协议下,数据集中共包含 1467 个行人。其中,训练集中有 767 个行人,测试集中有 700 个行人。

从所有摄像头中,为测试集中的每个行人随机选取一张图片,构成 query 集。测试集剩下的行人图片构成 gallery 集。因此,这是一个 multi-shot 的测试协议,每个行人在 gallery 集中有多张图片。不同于旧的测试协议,新的测试协议只执行一次训练集/测试集划分。
新的训练/测试协议被写在下面两个 .mat 文件中。

  • cuhk03_new_protocol_config_detected.mat
  • cuhk03_new_protocol_config_labeled.mat

二、CUHK03 数据集的两种格式

小伙伴们下载到的 CUHK03 数据集可能是 Matlab 格式的,也可能是图片格式的。不同代码对于数据集的格式要求不同,不同格式的数据集搭配合适的数据处理脚本食用更佳呀。

Matlab 文件格式

论文 DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification 提出的 CUHK03 数据集,是最原始版本的 CUHK03 数据集,它就是 Matlab 版本的数据集。它的下载链接如下:

1. cuhk03_release.zip 简介

解压 cuhk03_release.zip 后,你会发现里面只有一个 Matlab 格式的文件 cuhk-03.mat 和一个 README.md 文件。README.md 文件对 cuhk-03.mat 做了简要的介绍, cuhk-03.mat 主要包含三个字段:

  • detected 包含由行人检测器自动检测生成的边界框(行人图片)
  • labeled 包含人为手动标注的边界框(行人图片)
  • testsets 表示测试协议即数据集划分,测试集包括 100 个行人,重复 20 次

2. cuhk03_release.zip 的使用

cuhk-03.mat 可以使用新的训练集/测试集协议,将两个 .mat 文件和 cuhk03_release 放在一起,如下所示:

cuhk03/
   cuhk03_release/
   cuhk03_new_protocol_config_detected.mat
   cuhk03_new_protocol_config_labeled.mat
   ...

将 CUHK03 数据集划分训练集、测试集(gallery)和 query 集,划分结果如下:
在这里插入图片描述
其中 new_labeled 的划分结果如 json 文件所示:
在这里插入图片描述
也可以使用原始划分方式,无需加入 cuhk03_new_protocol_config_detected.mat 和 cuhk03_new_protocol_config_labeled.mat ,将 CUHK03 数据集划分训练集、测试集(gallery)和 query 集,其中 classic_labeled 的划分结果如 json 文件所示:
在这里插入图片描述

图片格式

其实,图片格式的 CUHK03 数据集是数据处理脚本 cuhk03.py 处理得到的一个结果。 cuhk-03.mat 文件被转换成图片保存到 detected 文件夹和 labeled 文件夹下。detected 就是 DPM 检测器检测生成的行人图片,labeled 就是手动标注出的行人图片。

1. CUHK03.tar.gz 数据集

CUHK03.tar.gz 就是图片格式的 CUHK03 数据集,里面包括 detected 文件夹和 labeled 文件夹。CUHK03.tar.gz 的下载链接如下:

CUHK03.tar.gz 数据集中只有行人图片,并没有包含数据集划分信息。因此,它一般结合 cuhk03.py 生成的 json 文件一起使用。

  • classic_detected 是 detected 文件夹的原始训练集/测试集划分信息
  • classic_labeled 是 labeled 文件夹的原始训练集/测试集划分信息
  • new_detected 是 detected 文件夹的新的训练集/测试集划分信息
  • new_labeled 是 labeled 文件夹的新的训练集/测试集划分信息

在这里插入图片描述
下面以 detected 文件夹下的图片介绍下数据集的命名规则,下图是摄像头采集到的行人 023 的图片
在这里插入图片描述
以图片 1_023_1_01.png 为例解析数据集 CUHK03.tar.gz 的命名规则:

  • 1 代表摄像头的组别,共有 5 组摄像头
  • 023 代表行人 ID 编号
  • 1 代表同组摄像头的 1 号摄像头,一组摄像头共有 2 个摄像头
  • 01 代表行人的第一张图片,一个行人至多有 10 张图片,前 5 张来自一个摄像头,后 5 张来自另一个摄像头

2. CUHK03-NP 数据集

CUHK03-NP 数据集是一个处理好的图片集,它采用新的训练/测试协议进行划分。它的存储格式类似于 Market 1501 数据集。

cuhk03-np
	|——detected
		|——bounding_box_train
		|——bounding_box_test
		|——query
	|——labeled
		|——bounding_box_train
		|——bounding_box_test
		|——query

CUHK03-NP 数据集的下载链接如下:

谷歌云下载链接:cuhk03-np.zip
百度云下载链接:cuhk03-np.zip 提取码:38ff

以图片 0274_c1_2655.png 为例解析 CUHK03-NP 数据集的命名规则:

  • 0274 代表行人 ID 编号
  • c1 代表来自第1组摄像头(共有2组,一组5个)
  • 2655 表示来自第一个摄像头的第 2655 帧。

参考文献

  1. 行人重识别(ReID) ——数据集描述 CUHK03
  2. The new training/testing protocol for CUHK03 (CUHK03-NP)
  3. https://github.com/michuanhaohao/deep-person-reid
  4. DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification
  5. Re-ranking person re-identification with k-reciprocal encoding
  6. https://aistudio.baidu.com/aistudio/projectdetail/2304767
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值