1,MS-Celeb-1M数据集: (已删)
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。其他常用人脸数据集:CAISA-WebFace,VGG-Face, MegaFace.
数据有对齐版可以直接用于训练(共80G数据):
MsCelebCleaner https://github.com/mohit242/MsCelebCleaner
包含用于提取和清除MsCeleb的脚本。指示中
- 下载MsCeleb数据集[ https://msceleb.blob.core.windows.net/msceleb-v1/FaceImageCroppedWithAlignment.tsv ](直接下载可能已被删 复制到迅雷中可以下载)
- 下载MsCeleb清单[ https://onedrive.live.com/?authkey=%21ANDIP6m4Y17QH%5Fk&cid=88C3C82ADDD2A052&id=88C3C82ADDD2A052%21734823&parId=88C3C82ADDD2A052%21734822&o=OneUp ]
- 运行execute.py