不得不说,微软的数据集,就是有毒
废话不多说,大家都知道这个数据集因为侵权和隐私问题已经在官网上下载不到了(一定要区分人脸属性数据集CelebA,搜关键词很容易下载到的是这个数据集,不要问我怎么知道的:)。科研人都不容易,直接上数据集种子下载地址:MS-Celeb-1M: {A} Dataset and Benchmark for Large-Scale Face Recognition - Technical - Academic Torrents
嗷,先介绍一下这个数据集。MS-Celeb-1M包含了10万个名人的10M张图片,是规模相当大的人脸识别数据集。
目录
解压数据集种子
torrent种子的解压方法见(linux系统):解压种子链接:【Linux操作】常用命令整理。下载完之后大概230G,我只下载了其中对齐人脸(FaceimageCroppedWithAlignment.tsv)的部分,大概90G,需要提前分配一下空间。
下载数据集图片
终于下载到了数据集,发现是个.tsv的文件,官网的文件格式说明为:
File format: text files, each line is an image record containing 7 columns, delimited by TAB.
Column1: Freebase MID
Column2: ImageSearchRank
Column3: ImageURL
Column4: PageURL
Column5: FaceID
Column6: FaceRectangle_Base64Encoded (four floats, relative coordinates of UpperLeft and BottomRight corner)
Column7: FaceData_Base64Encoded
用以下程序(Github链接:https://github.co