MacroSoft数据集MS-Celeb-1M

这两天要训练人脸。那么数据集首选MS-Celeb-1M.

人脸数据集:CAISA-WebFace,VGG-Face, MS-Celeb-1M, MegaFace.

介绍一下MS-Celeb-1M数据集: 
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估.

reference paper:MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition published at ECCV 2016.

Training dataset, contains 10M images in version 1, is the largest publicly available one in the world 
Task : 识别 1M 个明星 from their face images.

这篇文章提出要建立知识库。这是与传统不同的地方。

这里写图片描述

建立知识库有何好处?

首先,知识库上的每个人实体是unique,并且清楚地定义,而没有歧异,使得可以定义这样的大规模面部识别任务。 第二,每个实体自然具有多个属性(例如性别,出生日期,职业),为数据收集,清洗和多任务学习提供丰富且有价值的信息。

数据集是什么样的?

从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。注意,这是lady gaga的图片,我去,化妆太夸张了吧。估计连人都难认出来。 
这里写图片描述
下面这个是jobs。从中学时代到近50岁的时候图片。年龄跨度很大。注意绿色框是中学时代的jobs。红色的框是人工合成的(job本人以及电影中的扮演者共同合成)。也就是一张false。但是假的逼真。 
这里写图片描述

测试集是如何制定的?

测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。因此,你不可能专门训练这1000个人,之后对于测试结果非常好。

如何评估谁的识别系统好?

输入一张人脸,然后输出最多5个置信度,按百分比排名,排名最好的额,定位结果。 
假设:输入为: 
这里写图片描述 
然后你的输出【89.3%,8.4%,1.1%,0.8%,0.4%】对应【李小龙,王浩,马龙,张继科,刘国梁】。 
那么认为你的top1是评价的结果。本来的标注是李小龙。那么你的预测是正确的。

【附】:一份干净的,列表(训练集)。MS-Celeb-1M_clean_list.txt 
http://pan.baidu.com/s/1hrD9MgW

================================Q&A=================================

1、如何将MsCelebV1-Faces-Aligned.tsv 转成jpg。

googleHow to extract the images and associating class labels from clickture_dog_thumb.tsv file? 
这里写图片描述

2、转换完效果是什么?

这里写图片描述

注意:可以看到数据有噪声。如果想得到比较好的效果,请用上面干净的列表。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值