ACM MM2020 | 一个卡通人脸识别的基准数据集

爱奇艺技术产品团队

于 2020-09-18 19:00:00 发布

阅读量1.7k

点赞数 1

文章标签：人脸识别算法计算机视觉机器学习人工智能

导读

通过人脸识别技术对视频中的人物信息进行结构化分析，目前已在爱奇艺公司的多个产品中应用，例如“奇观”、“只看他”等，给用户带来了良好的交互体验。为了推动了人脸识别技术的快速发展，爱奇艺在2018年、2019年相继举办了多模态人物识别竞赛。

与此同时，学术界、工业界对卡通人物识别领域的研究较少，为了促进相关研究和带来良好的用户体验，本文提出了iCartoonFace卡通识别数据集和对相关算法进行了研究，并成功落地到爱奇艺“奇观”、“逗芽”等产品中。

摘要

本文提出了一个卡通人脸识别的基准数据集iCartoonFace，并设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。

论文链接：https://arxiv.org/pdf/1907.13394.pdf

背景

近年来，伴随着卡通产业的迅猛发展，卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。同时伴随着人脸识别技术的发展，人物识别精度大幅提升，在Labeled Faces in the Wild（LFW）等图片数据集上，人脸识别精度甚至超过了人类的识别能力。然而，对卡通人物身份的识别，却鲜有研究，相关的数据集也比较少，如下表1。对于深度学习来说，这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模、高质量的卡通识别数据集，并对卡通人物身份信息进行识别，则至关重要。

表1 卡通人物识别相关数据集对比

iCartoonFace数据集

1）数据集构建

为了减轻标注人工的工作量，我们设计了一种半自动数据集构建框架来得到iCartoonFace数据集，如下图1。我们的框架可以分为以下三个阶段：

分层数据收集；从卡通专辑到卡通人物名称，再到卡通人物图片依次获取；
数据过滤过程：利用卡通人脸检测、特征提取器、特征聚类等进行噪声数据过滤，其中特征提取器随着标注数据的增多而性能不断增强；
Q/A问答：标注人员根据特征聚类的结果，回答两张图片是否是同一个人物。

图1 半自动数据集构建框架

2）数据集统计信息

iCartoonFace识别数据集是一个大规模、高质量的卡通人物身份识别数据集，如图2。iCartoonFace识别数据集的统计特性如下：

大规模：iCartoonFace识别数据集包含5013个卡通人物、389,678张图片，来源于1,302卡通专辑，是已知目前最大的手工标注卡通人物身份识别数据集；
高质量：数据集手工标注完成之后，我们采用交叉验证的方式保证数据集标注错误率在5%以内。所有图片的分辨率高于100x100，超过65%的图片分辨率高于200x200；
多样性和挑战性：从图3可以看到，不同的卡通人物具有非常相近的外形特征，同一个的卡通人物由于的表情、遮挡、角度等影响导致外形具有非常大的差异性。

图2 iCartoonFace识别数据集统计信息

3）数据集挑战性

给定一张Probe集中的照片和至少包含一张相同卡通人物身份图片的Gallery集，算法需要根据与给定图片中卡通人物身份相似度对Gallery集中所有图片进行排序。具体来说，Probe集中包含N个卡通人物、每个卡通人物有M张照片。对于每个卡通人物的M张照片，每次选取一张图片作为probe照片，然后把剩余的M-1张，再单独每一张和distractors一起组成Gallery集，然后进行比对，然后计算rank1精度。经过N*M*（M-1）次比对后，得到的平均rank1精度作为本次任务的评价指标。

在iCartoonFace卡通识别数据集中，有四类代表性的挑战，如图3所示：

a. 类间相似度高：来自不同人物ID的两张图片外观看起来非常相似；

b. 视角变化：同一个人物有不同角度的图片；

c. 遮挡问题：人物面部会受到场景中其他对象的遮挡；

d. 光线变化：所有的这些识别问题中遇到的问题，都需要我们的识别算法具有足够的鲁棒性。

图3 iCartoonFace卡通识别数据集代表性的挑战

我们的方法

我们提出了卡通和真人多人物训练框架如下图4所示，主要分为分类损失函数、未知身份拒绝损失函数和域迁移损失函数。

图4 卡通和真人多任务训练框架

分类损失函数：主要用来对卡通脸和真人脸进行分类，典型的表达式如下：

未知身份拒绝损失函数：在不同域之间进行无监督正则化投影，表达式如下：

域迁移损失函数：用来减低卡通和真人域之间的差异性，对他们的相关性进行约束，表达式如下：

实验分析

1）哪种算法更适合卡通识别？

我们比较了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL几种算法的性能如下图5所示。结果表明，ArcFace+FL的性能相比其他算法无论是在低Rank还是高Rank下都更优。

图5 五种算法的CMC曲线图

2）人脸识别的信息是否有助于卡通识别？

我们测试了对于卡通检测和卡通识别两个任务，人脸信息是否对卡通的检测识别有帮助。从表2可以发现，与F-ArcFace(即ArcFace+FL)相比，本文提出的方法的人脸识别性能将略有提高，图6同样验证了加入人脸识别的数据后卡通检测的性能也能得到提高。

图6 卡通检测两种算法的PR曲线

表2 算法的性能对照表

3）对于卡通识别来说上下文信息是否有用？

卡通脸是识别一个卡通人物身份的最主要区别部分。然而，在某些情况下仅仅依靠卡通人脸不足以区分不同的卡通人物。我们测试了算法在卡通人脸基础上扩充不同比例下的性能如图7所示，图中表示了在包含更多的上下文信息下会获得更高的识别性能。

图7 在不同扩充比例下的CMC曲线

总结展望

爱奇艺开放了目前全球最大的手工标注卡通人物检测数据集与识别数据集iCartoonFace，包含超过5000个卡通人物、40万张以上高质量实景图片，这使得对卡通人脸识别技术的研究拥有了强有力的数据土壤。针对卡通人物的特性进行更加深入的模型优化研究，设计卡通真人多任务学习框架，可以有效地提高卡通人物识别性能。未来，加深对卡通人物识别能力的研究，设计更加鲁棒性的算法，从而可以处理遮挡、侧脸、模糊、变身等多种情况，使得识别的人数更多、可识别的样式更丰富，是一个非常有挑战性的问题。

对卡通人物进行识别具有广泛的应用场景，不仅可以用于视频理解对视频进行结构化分析，还可以在智能剪辑创作、图片搜索、人物审核、广告等场景中得到广泛应用。例如图片搜索中加入卡通人物身份特征，使得搜索更加准确，通过分析视频中卡通人物的身份点位，可以提供给创作者进行智能剪辑，也可以用来对恶搞的讽刺漫画或者卡通风格人物进行审核辨识。

参考文献

[1] Zheng, Yi, et al. "Cartoon Face Recognition: A Benchmark Dataset." arXiv (2019): arXiv-1907.

[2] Liu, Yuanliu, et al. "iQIYI Celebrity Video Identification Challenge." Proceedings of the 27th ACM International Conference on Multimedia. 2019.

[3] Liu, Yuanliu, et al. "iqiyi-vid: A large dataset for multi-modal person identification." arXiv preprint arXiv:1811.07548 (2018).

[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.

[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.

[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).

[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.

[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.

[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.

[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.

[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.

[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.

[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.