随着FER文献将其主要焦点转移到具有挑战性的野外环境条件,许多研究人员致力于采用深度学习技术来处理困难,例如光照变化,遮挡,非正面头部姿势,身份偏差和识别 低强度表达。 鉴于FER是一项数据驱动的任务,并且训练足够深的网络以捕获与细微表达相关的变形需要大量的训练数据,深度FER系统面临的主要挑战是缺乏关于数量的训练数据 和质量。
由于不同年龄段,文化和性别的人以不同方式显示和解释面部表情,理想的面部表情数据集预计包括具有精确面部属性标签的丰富样本图像,不仅仅是表达,还包括其他属性,如年龄,性别和种族 ,这将有助于使用深度学习技术,如多任务深度网络和转移学习,对跨年龄范围,跨性别和跨文化FER进行相关研究。 此外,尽管遮挡和多重问题在深部识别领域受到了相对广泛的关注,但是在深度FER中,遮挡 - 鲁棒性和姿势不变性问题受到的关注较少。 其中一个主要原因是缺乏具有遮挡类型和头部姿势注释的大规模面部表情数据集。
另一方面,利用自然场景的大变化和复杂性准确地注释大量图像数据是构建表达数据集的明显障碍。合理的方法是在专家注释者的指导下采用众包模式[44],[46],[249]。此外,由专家提炼的全自动标记工具[43]可以替代提供近似但有效的注释。在这两种情况下,需要随后的可靠估计或标记学习过程来过滤掉噪声注释。特别是,几乎没有考虑真实场景并包含各种面部表情的相对大规模的数据集,这些数据集最近已公开,即EmotioNet [43],RAF-DB [44],[45]和AffectNet [46]。 ],我们预计随着技术的进步和互联网的广泛传播,将构建更多互补的面部表情数据集,以促进深度FER的发展