CVPR2016
MegaFace data, code, and challenge can be found at:
http://megaface.cs.washington.edu
人脸识别问题貌似已经被解决了,因为在 LFW上面,大家的识别率都是 99%+啦。但是当数据库的规模达到一百万时,识别率就不是很好了。
文献首先描述了当前数据库存在的问题,就是识别率饱和,数据库规模太小。接着描述了建立 一百万个体人脸的MegaFace数据库的步骤,最后使用了几个代表性算法在该数据库上进行测试,发现了一些现象,说明大规模人脸识别问题没有被解决,有待进一步研究。
http://www.leiphone.com/news/201606/XUiStc0VO3HOYXa1.html
大的脸图集包含了1百万张图片,代表了超过690,000个不同的人。这是第一次在一百万规模下测试面部识别算法。在最近几年中,已经有几个团队声称,他们的脸部识别算法系统的精准率已经近乎完美。
但本次测试只会在一个仅有13,000张图片的数据集上进行-比参加美国职业足球赛的平均人数还少。随着这些人群增长到一个美国主要城市的规模,他们的表现将如何?
华盛顿大学的研究者回应了这个人脸挑战问题。世界的第一个竞争,旨于在百万人的数据规模下评估和提高人脸识别算法的性能。当面临着更多的干扰时,所有的算法都面临精准率的考核,但有些算法的表现比别其他的好得多。
“我们需要在星球的尺度上测试脸部识别,确保他能实际应用–在更大范围进行测试,以便你发现识别算法的缺陷和优点。”计算机科学助理教授和UW项目的首席研究员 Ira Kemelmacher-Shlizerman说道。
“我们不能在一个很小的集合中测试,然后说他是完美的。”
UW团队首先开发了一个有一百万相册图片的数据集,图片来自于全世界并且可公开提供创意共享许可证,代表着690572个独特的个人。随后他们考验人脸识别团队,让他们下载数据库然后观察当必须区分有一百万种可能性的匹配时他们算法的运行效率。
Google的脸部网络在其中一项测试中展现出了非常高的性能,当面对更小的图片集时,达到了近乎完美的精准度,在百万人测试中精准度达到了75%。一个来自于俄罗斯N-TechLab的团队在另一个测试中脱颖而出,降到73%。
相比之下,其他算法的精准率也很不错–大概95%–在一个小规模内下降了更大的百分比,当面临着更艰巨的任务时精度低至33%。初步的结果,在计算机视觉与模式识别会议(CVPR 2016)6月30日的论文中被非常详细的展现出,以及项目网站上更新正在进行的结果,超过300个研究小组正在努力攻克大规模的脸图。
大规模的脸图挑战在查证方面测试了算法,或者说他们在正确的识别两个照片是否是同一个人方面能表现的多好。这就是一个iPhone的安全功能如何运作,例如,能够识别你的脸并且决定是否解锁你的手机,而不是要你输入密码。
“如果你在阿姆斯特丹的火车站丢失了你的手机会发生什么?,或者有人想偷他呢?”共同领导UW图像算法和成像实验室的Kemelmacher-Shlizerman说道。“我想非常的肯定我的手机可以在一百万甚至七百万人中正常的识别出我,而不是在仅仅10,000或者更少”
他们同样也在识别方面测试了算法,或者说他们能够多精准的匹配一个单一个体的照片,从一百万“分心”中找到同样是这个人的不同照片。这正是在进行的,例如,当执法部门有一个犯罪嫌疑人的照片,并通过在地铁站台或机场拍摄的照片,看看是否该人试图逃跑。
“你可以看出这个问题的难点-从不同的年龄阶段中识别出同一个人是无法解决的问题。因此从他们二重身识别出个人和匹配不同姿势的个人就像侧视图到正视图一样。 ”Kemelmacher-Shlizerman说道。在评估规模时,文章同样分析了在人脸识别时年龄和姿势的不变性。
总体来说,“学习”在大规模图片数据集中如何正确片匹配的算法胜了那些只获得较小的训练数据集的算法。除了中国研究团队演算出的SIAT MMlab算法,在更小数量的图片集上学习,逆流而,上通过比其他的算法做的更好。
大集合面部图集挑战仍然在进行并且不断的收到结果。
团队的下一步包括收集一半一百万的个体–每一个都有一定数量的照片–为了一个将被用于脸部识别算法的数据集。这将有助平衡运行场地于并且测试给出相同数量的大规模训练数据,那个的算法优于其他人,当大多数研究者无法获得和Google或者Facebook一样大的图片集时。该训练集将被发布到夏季结束。
“最先进的深神经网络算法有数以百万计的参数要学习并且要求有大量的例子来调整他们”Aaron Nech说道,华盛顿大学计算机科学与工程硕士的学生在为训练数据集而努力。
“和人不一样,这些模型最初是一个空白的石板。具有数据的多样性 ,例如在超过500,000个不同个体发现的杂的身份线索,通过提供各种各样现在未出现的样本,能够提高算法的性能”