【WebFace260M】《WebFace260M:A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition》

在这里插入图片描述

CVPR-2021



1 Background and Motivation

学术界人脸识别数据集规模太小,评价指标已被刷饱和

This data gap hinders researchers to push the frontiers of deep face recognition

作者开源了一个图片规模 260M 的人脸识别数据集 WebFace260M(含人脸属性),提出了 a time-constrained assessment protocol(就是针对不同人脸识别应用场景卡了下识别系统的整体时间而已),用 WebFace260M 数据集训练出来的模型在 IJB-CNIST-FRVT 竞赛上分别取得了第一和第三的惊艳结果!

在这里插入图片描述
在这里插入图片描述

2 Related Work

3 Advantages / Contributions

1)a new large-scale face benchmark

towards closing the data gap behind the industry

  • noisy 4M identities/260M faces (WebFace260M)

  • cleaned 2M identities/42M faces (WebFace42M)

2)a time-constrained assessment protocol

Face Recognition Under Inference Time conStraint protocol—— FRUITS

facilitate the evaluation of real-world applications

3)a new test set

actively maintained and updated

4)WebFace42M,SOTA on IJB-C,3rd on NIST-FRVT

4 Datasets and Metrics

WebFace260M:筛选前,脏,大

WebFace42M:筛选后,干净,小

4.1 Datasets

1)Celebrity name list and image collection

WebFace260M 数据集 ID 数量 4M

1 M 1M 1M constructed from Freebase + 3 M 3M 3M celebrity names in IMDB = 4 M 4M 4M celebrity names(4,008,130 identities)

WebFace260M 图片数量 260 M

200 images per identity are downloaded for top 10% subjects, while 100, 50, 25 images are reserved for remaining 20%, 30%, 40% subjects, respectively

4 M ∗ 0.1 ∗ 200 + 4 M ∗ 0.2 ∗ 100 + 4 M ∗ 0.3 ∗ 50 + 4 M ∗ 0.4 ∗ 25 = 80 + 80 + 60 + 40 = 260 M 4M*0.1*200 + 4M*0.2*100 + 4M*0.3*50 + 4M*0.4*25 = 80 + 80 + 60 + 40 = 260M 4M0.1200+4M0.2100+4M0.350+4M0.425=80+80+60+40=260M (260,890,076 faces)

2)Face pre-processing

图片来源,website IMDBGoogle

RetinaFace 人脸检测算法筛选,一张图有多脸选高于阈值的最大面积的人脸

筛完后,数据多样性统计如下
在这里插入图片描述
200 多个 countries/regions,500 + 职业,各个年龄段 / 年代

3)Cleaned WebFace42M

采用 Cleaning Automatically utilizing Self-Training (CAST) 算法来自动化迭代清理数据

self-training 的原理如下:

Self-Training:用半监督的方式对任何有监督分类算法进行训练
在这里插入图片描述
也即用监督训练得到的模型去预测没有标签的数据,通过筛选标准得到部分没有标签的数据的伪标签(pseudo-label),然后把伪标签加入原有的数据集,迭代训练得到新模型,再去预测剩下没有标签的数据获取伪标签,不断迭代,直到迭代次数停止或者没有满足条件的新的伪标签生成!

作者本文提出的 CAST 流程如下:
在这里插入图片描述
在这里插入图片描述
初始模型,也即祖师爷用的是 ResNet-100(主干) + ArcFace(损失) + MS1MV2(数据集)

后续就是 ”子又生孙,孙又生子,子子孙孙无穷尽也” 的过程了

迭代过程中采用的筛选标准为 intra-class and inter-class cleaning,分两步

  • face clustering,对同 ID 每张图片的 512 embedding features 进行聚类,聚类方法为 DBSCAN,only largest cluster (more than 2 faces) in each ID is reserved,这步操作使得类内 embedding 更加聚拢

  • feature center,计算每个 ID 的特征中心,两两 ID 之间计算特征中心的 cosine 相似度,相似度高于 0.7 的 ID 会被合并成同一 ID,相似度介于 0.5~0.7之间的,人脸数量较少的 ID 会被删除,这步操作拉大了类间距离

下图展示了 score distribution during different stages of CAST
在这里插入图片描述


CAST 迭代停止后,还会进行 Remove duplicates and test set overlaps

同一 ID 中两张图片的 cosine similarity is higher than 0.95 会被删除

测试集合中,每个 ID 的特征中心与 LFW families, FaceScrub, IJB-C etc benchmark 计算重叠度,cosine similarity is higher than 0.7 的 ID 会被删除

筛完后剩下 42M 图片,2M ID

在这里插入图片描述

每个 ID 人脸数量为 3~300,平均 21 张 / ID

4)Face attributes on WebFace42M

数据集还包含 7 种人脸属性的标签:

pose, age, race, gender, hat, glass, and mask

在这里插入图片描述

5)Test Set
在这里插入图片描述
C 38578 2 = 38578 × 38577 / 2 = 743683994 + 427759 C_{38578}^2 = 38578 \times 38577 / 2 = 743683994+427759 C385782=38578×38577/2=743683994+427759

All means impostors are paired without attention to any attribute, while later comparisons are conducted on age, race, gender and scenario subsets

Cross-scene means pairs are compared between controlled and wild settings.

4.2 Metrics

作者提出的人脸识别评价指标为 Face Recognition Under Inference Time conStraint (FRUITS) protocol,引入了时间限制

(NIST-FRVT 也有 time-constrained face recognition protocol,但 4 个月提交一次结果不太利于领域快速迭代推进)

包含 face detection and alignment, feature embedding for recognition, and matching 所有算法的推理时间

measured on a single core of an Intel Xeon CPU E5-2630-v4@2.20GHz processor

FRUITS protocol sets a series of tracks(tracks 翻译成分支?模式?哈哈)

代入下面这句话中可能更有利于理解
在这里插入图片描述

  • FRUITS-100 track:100 ms 内,可以被部署到 mobile devices

  • FRUITS-500 track:500 ms内,可以 deployed in the local surveillance system

  • FRUITS-1000 track:1000 ms 内,可以 performed on clouds

人脸识别较为通用的评价指标为:

一文说透机器学习的主流评价指标

ROC和CMC曲线的理解(FAR, FRR的理解)

  • FMR,False Match Rate,等价于误识率(FAR,False Accept Rate), 是指 “把不应该匹配的人脸当成匹配的人脸”的比例。FP/(FP+TN)

  • FNMR,False Non-Match Rate,等价于拒识率(FRR,False Reject Rate), 是指 “把应该匹配的人脸当成不匹配的人脸”的比例。FN/(TP+FN) = 1-TPR

  • TAR,True Accept Rate,是指 “把应该匹配的人脸当成匹配的人脸”的比例。TPR = TP/(TP+FN)

Lower FNMR at the same FMR is better. eg:0.123 FNMR@FMR=1e-5

5 Experiments of Million-level Recognition

1)Distributed Training

在这里插入图片描述
这个图里面的 X 和 W 没有看懂

32 台机器,每台机器 8 卡,每个卡 batch-size 32,

8 台机器分布式运行,速度提升倍数保留了 80%——from 233 hours (1 node) to 9 hours (32 nodes) with comparable performance,猛

一个 node 就是一台 machine

233 / ( 9 × 32 ) ≈ 80.9 % 233 / (9 \times 32) \approx 80.9\% 233/(9×32)80.9%

采用的加速技术来自于《Accurate, large minibatch SGD: Training imagenet in 1 hour》(arXiv-2017)

adopt a hyperparameter-free linear scaling rule for adjusting learning rates as a function of minibatch size
在这里插入图片描述

分布式加速后,精度也没有丢
在这里插入图片描述

2)Comparisons of Training Data
在这里插入图片描述
ResNet-100 + 不同 loss + 不同训练集 + 不同测试集(不同评价方式)

可以看到,用作者提出的数据训练出来的模型,在各个评价指标上都比较的猛

下图是 ResNet-100 + ArcFace + 不同训练集 + 同一测试集
在这里插入图片描述
作者也试验了 ResNet-14 + ArcFace + 本文数据集 + 同一测试集
在这里插入图片描述
效果也还不错哟

3)Comparisons of Data Cleaning
在这里插入图片描述
CAST 4th iteration shows saturated performance

作者也探讨了 Intra-class Cleaning 时采用的聚类算法
在这里插入图片描述
DBSCAN 比较猛

4)Baselines under FRUITS Protocols

在这里插入图片描述

All the models are trained on WebFace42M with ArcFace.

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
FMR-FNMR 图左下角猛,Attributes 图 outer is better

RegNet-800MF best for FRUITS-100

ResNet-100 best for FRUITS-500

ResNet-200 best for FRUITS-1000

小模型差距很大, 大模型差距很小

This result implies that new designs need to be explored for heavy weight FRUITS track.

5)Results on NIST-FRVT
在这里插入图片描述

6 Conclusion / Future work

1)图 4 中的 X 和 W 代表什么意思

2)self-training——《Arcface:Additive angular margin loss for deep face recognition》(CVPR-2019)

3)Linear Scaling Rule——《Accurate, large minibatch SGD: Training imagenet in 1 hour》(arXiv-2017)

4)de-bias face recognition(over certain attributes)

5)[总结] 人脸识别领域相关数据集
在这里插入图片描述
6)NIST-FRVT

leadboard
在这里插入图片描述

NIST 人脸识别竞赛 FRVT(Face Recognition Vendor Test)

在这里插入图片描述

7)https://github.com/ChanChiChoi/awesome-Face_Recognition#face-anti-spoofing
在这里插入图片描述

8)有约束无约束人脸

在这里插入图片描述
https://cloud.tencent.com/developer/article/1099505

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值