金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
人脸识别领域,中国队再次传来捷报。
全球最大规模人脸数据集发布。
首次包含数百万ID和数亿图片。
这就是由芯翌科技与清华大学自动化系智能视觉实验室合作,所推出的 WebFace 260M,相关研究已被CVPR 2021接收。
并且,基于其所清洗的数据集 WebFace42M,在最具挑战IJBC测试集上,也已经达到了SOTA水平。
而它所带来的“全球之最”还不止于此。
以这项数据集为基础,芯翌科技在最新一期的NIST-FRVT榜单上,戴口罩人脸识别评测中斩获世界第一。
全球之最的人脸数据集,长什么样?
WebFace260M这个数据集,是完全基于全球互联网公开人脸数据。
它的问世,一举打破了此前人脸数据集的规模:
不仅规模最大,也是首次在人脸ID数目和图片数,分别达到了400万和2.6亿的规模。
此外,研究人员还提出了基于自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST)。这种方法的灵感来自于