人脸识别数据集整理

转自:人脸识别数据集整理 - 陈晓涛 - 博客园

insightface提供整理了 mtcnn裁剪112x112,mxnet二进制方式保存的数据集

https://github.com/deepinsight/insightface/wiki/Dataset-Zoo

人脸识别训练数据集:

CASIA-Webface (10K ids/0.5M images)

 CASIA WebFace Dataset 是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,从IMBb网站上搜集来的

 2014年李子青实验室公开的人脸识别数据集,数据集收集自网络人脸图片,包含10575个人494414张图像

CelebA (10K ids/0.2M images)

CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集

其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记

CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等

官方网址:CelebA Dataset

UMDFace (8K ids/0.37M images)

该数据集包含367920张人脸,分别类属于8501个事件类别。

提供的人脸信息包括,人脸框,人脸姿势,(yaw,pitch,roll),21个关键点,性别信息等。

由于图片尺度,方向等的问题,使得该数据集不适合做人脸检测的训练,适合做人脸识别。

数据集下载地址,UMDFaces

VGG2 (9K ids/3.31M images)

VGGFace2 是一个大规模人脸识别数据,包含331万图片,9131个ID,平均图片个数为362.6。

该数据集是从谷歌中下载的,包含不同姿态、年龄、光照和背景的人脸图片,其中约有59.7%的男性。

除了身份信息之外,数据集还包括人脸框,5个关键点、以及估计的年龄和姿态。

MS1M-IBUG (85K ids/3.8M images)

原数据集:MS-Celeb-1M

100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大,很难。

iBUG清洗过的数据集,85K ids,3.8M图片

MS1M-ArcFace (85K ids/5.8M images)

原数据集:MS-Celeb-1M

100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大,很难。

ArcFace清洗过的数据集,85K ids,5.8M图片

Asian-Celeb (94K ids/2.8M images)

亚洲名人数据集 9.4万ID,280万张图片

DeepGlint (181K ids/6.75M images)

由两部分人脸数据组成

Trillionpairs

1.原数据集:MS-Celeb-1M

由DeepGlint格林深瞳公司清洗的86,876个ids / 3,923,399个对齐图像。

2.原数据集:Asian-Celeb

由DeepGlint格林深瞳公司清洗的93,979个ids / 2,830,146个对齐图像。

合并后数据集:ids:86876+93979=181K, 图片数量:3923399+2830146=6.75M

IMDB-Face (59K ids/1.7M images)

IMDb-Face是用于人脸识别研究的新的大规模噪声控制数据集。

该数据集包含约170万张面孔,5万9千个身份

所有图像均从IMDb网站获得

Celeb500k (500K ids/50M images) 

名人数据集包含50万人的5千万图片

MegaFace (672K ids/4.7M images) 

672K人的4.7M张图片

MegaFace数据集是最大的可公开使用的面部识别数据集,具有一百万个面部及其各自的边界框。

MegaFace的图片是在由雅虎放出的含1亿图片的Flickr数据集的基础上进一步提取和处理得到的

MegaFace

人脸识别验证数据集:

CFP-FP (500 ids/7K images/7K pairs)[12]

这个数据集由500个identity的约共7000张图片组成,这个数据集的特别之处在于对于每个人,它有10张正面图像和4张侧面图像,

这对于想要做侧脸识别的同学还是很有帮助的

下载链接: cfpw.io

AgeDB-30 (570 ids/12,240 images/6K pairs)[13,6]

AgeDB(Age Database )包含

6000对 共440个ID,12240张不同姿态、表情、年龄、性别的图片。

同一个ID中,最大最小年龄差分别为3岁和101岁,所有ID的平均年龄为49岁。

根据不同的年龄差把所有数据划分为4个年龄段(年龄差5岁、10岁、20岁以及30岁)。其中每个年龄段的数据包括300对正样本、300对负样本。

此处验证集使用年龄差为30的数据,命名为agedb30。

LFW (5749 ids/13233 images/6K pairs)[14]

5749个ID,13233张不同姿态、表情的图片,提供的人脸图片均来源于生活中的自然场景

LFW数据集主要测试人脸识别的准确率,该数据库从中随机选择了6000对人脸组成了人脸辨识图片对,

其中3000对属于同一个人2张人脸照片,3000对属于不同的人每人1张人脸照片。

测试过程LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出“是”或“否”的答案。

通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。

http://vis-www.cs.umass.edu/lfw/

CALFW (5749 ids/13233 images/6K pairs)[15]

基于LFW数据集标注的跨年龄数据集,Cross-Age LFW (CALFW) database

Cross-Age LFW (CALFW) Database

CPLFW (5749 ids/13233 images/6K pairs)[16]

 基于LFW数据集标注的跨姿态数据集,Cross-Pose LFW (CPLFW) Database

Cross-Pose LFW (CPLFW) Database

人脸识别图像测试数据集:

MegaFace

使用MegaFace的测试数据集

MegaFace

IJB (IJB-B, IJB-C)

IJB-A 全称为 IARPA Janus Benchmark-A face challenge, 由 NIST(National Institute of Standards and Technology)所提出,

该竞赛所提供的数据集包含 500 个对象的 5712 张静态人脸图像和 2085 个人脸视频帧。

IJB-A Dataset Request Form | NIST

IJB-B 由 IJB-A 迭代而来,

该竞赛所提供的数据集包含 1845 个对象的 11754 张人脸图像, 55026 个视频帧,7011 个视频,10044 张非人脸图像。

IJB-C 由 IJB-B 迭代而来,

该竞赛所提供的数据集包含 3531 个对象的 21294 张人脸图像, 117542 个视频帧,11779 个视频,10040 张非人脸图像。

IJB-C Dataset Request Form | NIST

TrillionPairs

使用格林深瞳的测试数据集

Trillionpairs

NIST

由美国国家标准与技术研究院 NIST(National Institute of Standards and Technology) 组织的人脸识别算法测试集

NIST 指导下的人脸识别算法测试,数据均来自真实业务场景,意味着测试结果代表该技术在实战场景中的表现;数据规模是通过对百亿对样本采样,达到百万量级。

其中IJB也是NIST组织提供

Face Challenges | NIST

FRVT:Face Recognition Vendor Test,人脸识别技术评测

参考:

浅谈FRVT人脸识别测评

全球人脸识别算法测试(FRVT)最新榜单解读,冠军花落多家 

FRVT是美国国家标准技术局NIST组织的专业人脸识别测评,其主要目的是测试人脸识别算法水准。

FRVT测评不会公布人脸的训练集,很难通过拟合训练集方式参加比赛。参赛者提供算法SDK之后,FRVT直接测试这些算法性能。

FRVT训练集及测试集都不提供

FRVT人脸识别挑战大赛会给出一个排行榜,记录每个参赛组织在Visa,Mugshot、Wild、Child exploitation等六个数据集上的拒识率和误识率排行情况。

人脸识别视频测试数据集:

YTF

Youtube人脸(YTF)数据集包含3 495个不同人的视频,平均每人2.15个视频

YouTube Faces Database : Main

IQIYI

爱奇艺开放目前全球最大的明星视频数据集(iQIYI-VID),该数据集包含5000位明星艺人,以及长达1000小时、50万条视频片段

AI竞赛

其他数据集:

年龄识别数据集IMDB-WIKI

IMDB-WIKI - 500k+ face images with age and gender labels

包含524230张从IMDB和Wikipedia爬取的名人数据图片。应用了一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对于得到的分数和0-100相乘,并将最终结果求和,得到最终识别的年龄。

  • 2
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 人脸口罩数据集yolov5格式是指将人脸和口罩的数据标注和分类集合转化为适用于yolov5模型训练的数据格式。yolov5是一个目标检测模型,可以用于识别图像或视频中的对象,并将其框出。 在构建人脸口罩数据集yolov5格式时,需要进行以下步骤: 1. 数据采集:需要收集一定数量的图像或视频,包含人脸和口罩的不同场景和角度。 2. 数据标注:对采集到的图像或视频进行标注,将人脸和口罩的位置和类别进行标记。常用的标注方法是用矩形框或多边形框表示人脸和口罩的位置,并为每个框分配一个类别标签。 3. 数据格式转换:将数据标注格式转换为yolov5所需的格式。yolov5的数据标注格式包括图像路径、目标框位置信息(坐标、宽度和高度)以及目标类别。 4. 数据集划分:将整个数据集划分为训练集和验证集,用于模型的训练和评估。 5. 数据增强:为了增加数据集的多样性和模型的鲁棒性,可以对数据集进行增强处理,如随机裁剪、旋转、平移等。 6. 数据集配置:将数据集的相关配置信息写入一个配置文件中,包括类别列表、数据集路径和图像尺寸等。 通过上述步骤,我们可以将人脸口罩数据集转换为yolov5所需的格式,以便于用yolov5模型进行人脸口罩检测和识别的训练和应用。 ### 回答2: 人脸口罩数据集yolov5格式是指将原始人脸口罩数据集按照yolov5模型的输入格式进行整理和标注的数据集。yolov5是一种目标检测算法,可用于检测图像或视频中的多个目标。以下是关于人脸口罩数据集yolov5格式的一些说明。 首先,数据集需要包含两类目标:人脸和口罩。每个目标都需要经过标注,以确定其边界框和对应的类别标签。 对于每个图像样本,我们需要创建一个以图像为命名的.txt文件,保存了该图像中每个目标的标注信息。每行的格式如下: <class_label> <x_center> <y_center> <width> <height> 其中,<class_label>表示目标类别的标签,对于人脸是0,口罩是1。<x_center>和<y_center>表示边界框的中心点在图像中的相对位置,<width>和<height>表示边界框的宽度和高度。 示例: 0 0.5 0.4 0.3 0.2 1 0.6 0.7 0.4 0.3 上述示例表示一个图像中有两个目标,第一个目标是人脸,中心点在图像宽度的50%和高度的40%处,宽度占图像宽度的30%,高度占图像高度的20%。第二个目标是口罩,中心点在图像宽度的60%和高度的70%处,宽度占图像宽度的40%,高度占图像高度的30%。 最后,将所有图像的.txt标注文件和对应的图像文件一起组成数据集,可供yolov5模型进行训练和测试。 这样的人脸口罩数据集yolov5格式可以为口罩识别模型提供有标注的训练数据,从而提高检测模型在口罩检测任务上的准确性和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值