【人脸识别数据集】MS-Celeb-1M 下载、读取、超细处理步骤及踩坑心得

不得不说,微软的数据集,就是有毒

废话不多说,大家都知道这个数据集因为侵权和隐私问题已经在官网上下载不到了(一定要区分人脸属性数据集CelebA,搜关键词很容易下载到的是这个数据集,不要问我怎么知道的:)。科研人都不容易,直接上数据集种子下载地址:MS-Celeb-1M: {A} Dataset and Benchmark for Large-Scale Face Recognition - Technical - Academic Torrents

嗷,先介绍一下这个数据集。MS-Celeb-1M包含了10万个名人的10M张图片,是规模相当大的人脸识别数据集。

目录

解压数据集种子

下载数据集图片

数据集清洗方法1

数据集清洗方法2

总结


解压数据集种子

torrent种子的解压方法见(linux系统):解压种子链接:【Linux操作】常用命令整理。下载完之后大概230G,我只下载了其中对齐人脸(FaceimageCroppedWithAlignment.tsv)的部分,大概90G,需要提前分配一下空间。

下载数据集图片

终于下载到了数据集,发现是个.tsv的文件,官网的文件格式说明为:

File format: text files, each line is an image record containing 7 columns, delimited by TAB.
Column1: Freebase MID
Column2: ImageSearchRank
Column3: ImageURL
Column4: PageURL
Column5: FaceID
Column6: FaceRectangle_Base64Encoded (four floats, relative coordinates of UpperLeft and BottomRight corner)
Column7: FaceData_Base64Encoded

用以下程序(Github链接:https://github.co

  • 19
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值