1.知识点
-
gallery set – 参考图像集,即公认的标准行人库,测试用;
probe set – 待查询图像集,也叫query set,测试用。
-
single gallery shot – 指gallery中每个人的图像为一张(N=1);
muti gallery shot – 指gallery中每个人的图像为多张(N>1),同样的rank-1下,一般N越大,得到的识别率越高。 -
hard negatives – 相似却不是同一个人
hard positives – 同一个人却在不同图片中无法判别
2.数据集
Market-1501、CUHK03、DukeMTMC-reID是衡量Re-ID技术的最主流的数据集。
1. Market-1501(http://www.liangzheng.org/Project/project_reid.html)
郑良等人在论文《Scalable Person Re-identification: A Benchmark》(ICCV 2015)中提出
该数据集在清华大学校园中采集,图像来自6个不同的摄像头,包含5个高分辨率(1280x1080 HD,fps: 25)和1个低分辨率(720x576
SD,fps: 25);
-
该数据集有1501个类别,共36036张图片,其中训练集有751个ID:共12936张,测试集有750个ID:共19732张。所以在训练集中,每个ID平均有17.2张训练图片,在测试集中,每个ID平均包含26.3张图片;
-
每个类别的图片最多能被六个摄像头捕捉,最少能被两个摄像头捕捉;
-
在开放环境中,多摄像头组成的捕捉系统使样本包含多种属性、信息和环境
背景; -
Market-1501数据集的图像是由检测器自动检测并切割,包含一些检测误差,较为接近真实使用情况。
2. Market-1501数据集 -
“bounding_box_train” – 751个ID,12936张图片,训练集;
-
“bounding_box_test” – 750个ID,19732张图片,测试集,也是所谓的gallery参考图像集;
-
“query” –750个ID,共3368张图片,即待查询图片。test中750个ID在每个摄像头中随机选择一张图像作为query,因此一个ID的query最多有 6 个,ps:与test中的图不重复,在参考建立自己的数据集时,可以先建好test,然后按需要从test中剪切得到query;
-
“gt_query” –对query中的每一个图片(3368张),都有"good"和"junk"的标记,为matlab格式,用于判断一个query对应到gallery中的哪些图片是好的匹配(同一个人不同摄像头的图像)和不好的匹配(同一个人同一个摄像头的图像或非同一个人的图像)
-
“gt_bbox” – 人工标注的bounding box,用于判断DPM检测的bounding
box是不是一个好的box。DPM检测得到bbox,与人工标注label的bbox计算IoU,如果大于50%,DPM检测的bbox被标记为“good”;如果小于20%,则被标记为“distractor”;否则被标记为“junk”,这意味着该图像对Re-ID的accuracy没有影响。
样本命名规则:
0001_c1s1_001051_00.jpg -
0001表示ID的编号,从0001到1501,共1501个ID;前缀为0000表示误检图片,只有部分身体,或背景区域,共2798张;-1
表示标注不合格图片