一、ShanghaiTech Part A/B
- A: 共计482张图片,其中训练集300张,测试集182张;图片格式为
.jpg
,平均分辨率为 589 × 868 589 \times 868 589×868,标签格式为.mat
;- 训练集中最小图片尺寸为
299
×
450
299 \times 450
299×450
(IMG_157.jpg)
或者 420 × 182 420 \times 182 420×182(IMG_135.jpg)
,最大图片尺寸为 1024 × 1024 1024 \times 1024 1024×1024(IMG_57.jpg)
; - 训练集中含有 11 11 11张灰度图片和 14 14 14张竖屏图片;
- 无验证集
- 测试集中最小图片尺寸为
293
×
438
293 \times 438
293×438
(IMG_138.jpg)
或者 300 × 200 300 \times 200 300×200(IMG_34.jpg)
,最大图片尺寸为 1024 × 942 1024 \times 942 1024×942(IMG_23.jpg)
或者 992 × 1024 992 \times 1024 992×1024(IMG_50.jpg)
; - 测试集中含有 9 9 9张灰度图片和 6 6 6张竖屏图片;
- 训练集中最小图片尺寸为
299
×
450
299 \times 450
299×450
- B: 共计716张图片,其中训练集400张,测试集316张;图片格式为
.jpg
,平均分辨率为 768 × 1024 768 \times 1024 768×1024,标签格式为.mat
;- 训练集中图片尺寸均为为 1024 × 768 1024 \times 768 1024×768;无灰度图片;
- 无验证集
- 测试集中图片尺寸均为为 1024 × 768 1024 \times 768 1024×768;无灰度图片;
- ShanghaiTech数据集主页;
二、NWPU-Crowd
- 共计5109张图片,其中训练集3109张,验证集500张,测试集1500张;
- 图片格式为
.jpg
,标签格式为.json
和.mat
; - 平均分辨率为
2191
×
3209
2191 \times 3209
2191×3209:
- 训练集中最小图片尺寸为
259
×
194
259 \times 194
259×194
(0216.jpg)
,最大图片尺寸为 19044 × 4028 19044 \times 4028 19044×4028(2503.jpg)
或者 9302 × 6202 9302 \times 6202 9302×6202(0742.jpg)
; - 训练集中含有 0 0 0张灰度图片和 145 145 145张竖屏图片;
- 验证集中最小图片尺寸为
640
×
384
640 \times 384
640×384
(3503.jpg)
,最大图片尺寸为 10800 × 2332 10800 \times 2332 10800×2332(3173.jpg)
或者 4480 × 6720 4480 \times 6720 4480×6720(3588.jpg)
; - 验证集中含有 0 0 0张灰度图片和 23 23 23张竖屏图片;
- 测试集中最小图片尺寸为
260
×
194
260 \times 194
260×194
(4868.jpg)
,最大图片尺寸为 9443 × 3236 9443 \times 3236 9443×3236(4933.jpg)
或者 4480 × 6720 4480 \times 6720 4480×6720(3621.jpg)
; - 测试集中含有 0 0 0张灰度图片和 79 79 79张竖屏图片;
- 训练集中最小图片尺寸为
259
×
194
259 \times 194
259×194
train
、validate
目录下分别有一个train.txt
、validate.txt
文档,文档打开后每一行有三列,第一列为image_id
,第二列为luminance label
,第三列为scene level
;test.txt
文档只有一列,为image_id
;- 值得注意的是,测试集不含标签,需在线评估:
- 对于计数任务,提交文件为
.txt
文件,包含1500行,每行第一项是测试集图像的文件名(不含后缀),第二项是人数预测值(float
类型),中间用一个空格隔开; - 对于定位任务,提交文件为
.txt
文件,包含1500行,每行第一项是测试集图像的文件名(不含后缀),第二项是人数预测值 N N N(int
类型),再之后是 2 × N 2 \times N 2×N个整数,表示 N N N个人头的坐标位置 ( x , y ) (x, y) (x,y),每项之间用空格隔开;
- 对于计数任务,提交文件为
- NWPU数据集主页;
三、JHU_CROWD++
- 共计4372张图片,其中训练集2272张,验证集500张,测试集1600张;
- 图片格式为
.jpg
,标签格式为.txt
; - 图片平均分辨率为
910
×
1430
910 \times 1430
910×1430:
- 训练集中最小图片尺寸为
169
×
117
169 \times 117
169×117
(2660.jpg)
或者 222 × 107 222 \times 107 222×107(1344.jpg)
,最大图片尺寸为 8580 × 4089 8580 \times 4089 8580×4089(1243.jpg)
或者 7371 × 4914 7371 \times 4914 7371×4914(1227.jpg)
; - 训练集中含有 11 11 11张灰度图片和 59 59 59张竖屏图片;
- 验证集中最小图片尺寸为
300
×
208
300 \times 208
300×208
(1325.jpg)
或者 750 × 206 750 \times 206 750×206(0179.jpg)
,最大图片尺寸为 7295 × 1878 7295 \times 1878 7295×1878(1614.jpg)
或者 5760 × 3840 5760 \times 3840 5760×3840(3815.jpg)
; - 验证集中含有 2 2 2张灰度图片和 19 19 19张竖屏图片;
- 测试集中最小图片尺寸为
232
×
378
232 \times 378
232×378
(0202.jpg)
或者 500 × 130 500 \times 130 500×130(4271.jpg)
,最大图片尺寸为 10088 × 3520 10088 \times 3520 10088×3520(4343.jpg)
或者 3840 × 5760 3840 \times 5760 3840×5760(1670.jpg)
; - 测试集中含有 11 11 11张灰度图片和 47 47 47张竖屏图片;
- 训练集中最小图片尺寸为
169
×
117
169 \times 117
169×117
- 训练集、验证集和测试集目录下均包含
2
2
2个子目录(
images
,gt
),以及一个文件image_labels.txt
; images
目录下包含图像;gt
目录下包含每张图像对应的.txt
格式的标签,每个txt
文件包含若干行,每一行有6个值 x , y , w , h , o , b x, y, w, h, o, b x,y,w,h,o,b,以空格’ '分割:- x , y x, y x,y表示头部位置;
- w , h w, h w,h表示头部的大致宽度和高度;
- o o o表示遮挡等级,其取值可为 1 , 2 , 3 1, 2, 3 1,2,3,分别表示 可见、部分遮挡、全遮挡;
- b b b表示模糊登记,其取值可为 0 , 1 0, 1 0,1,分别表示不模糊、模糊;
- 一个典型示例为 133 229 11 17 2 0;
image_labels.txt
文件是图像级别的注释,其每一行是对一张图像的注释,具体地,一行包含五个值,以逗号’,'分割:- 图片文件名;
- 图片中总人数;
- 场景样式,如 会议、街景、火车站、游行等;
- 天气条件,其取值可为 0 , 1 , 2 , 3 0, 1, 2, 3 0,1,2,3,分别表示 无特殊天气、雾霾、下雨、下雪;
- 图像是否含有干扰,取值为 0 0 0表示不含有,取值为 1 1 1表示含有干扰(图中无人,为负样本;或者图中虽然有人,但背景纹理与人群相似);
- 一个典型示例为 0092,210,railway station,0,0;
- JHU数据集主页;
四、UCF-QNRF
- 共计1535张图片,其中训练集1201张,测试集334张,不含验证集;
- 图片格式为
.jpg
,标签格式为.mat
; - 平均分辨率为
2013
×
2902
2013 \times 2902
2013×2902:
- 训练集中最小图片尺寸为
300
×
377
300 \times 377
300×377
(img_1104.jpg)
或者 480 × 246 480 \times 246 480×246(img_1117.jpg)
,最大图片尺寸为 7360 × 4912 7360 \times 4912 7360×4912(img_1073.jpg)
或者 6666 × 9999 6666 \times 9999 6666×9999(img_0137.jpg)
; - 训练集中含有 11 11 11张灰度图片和 51 51 51张竖屏图片;
- 测试集中最小图片尺寸为
400
×
300
400 \times 300
400×300
(img_0289.jpg)
或者 500 × 163 500 \times 163 500×163(img_0100.jpg)
,最大图片尺寸为 7360 × 4912 7360 \times 4912 7360×4912(img_0042.jpg)
或者 3456 × 5184 3456 \times 5184 3456×5184(img_0090.jpg)
; - 测试集中含有 6 6 6张灰度图片和 16 16 16张竖屏图片;
- 训练集中最小图片尺寸为
300
×
377
300 \times 377
300×377
- QNRF数据集主页;