人脸表情识别(FER,Facial Expression Recognition)是一种通过分析人脸图像来识别面部表情的技术,常用于情绪分析、心理研究、智能监控等领域。该技术的核心在于从面部图像中提取特定的视觉特征,并通过算法分析这些特征以分类和识别面部表情,如快乐、愤怒、悲伤等。
作者提出了一种新的方法来提高人脸表情识别的泛化能力,特别是面对与训练数据集存在差距的测试数据时。这项方法基于CLIP模型,它是一种用于从图像和文本中提取通用特征的大型模型,但直接将其应用于表情识别任务并不理想。因此,作者设计了一种基于固定CLIP特征的sigmoid掩码来提取与表情相关的特征。这种掩码可以帮助模型在未标注数据上进行高效的识别,增强了模型在实际应用中的零样本泛化能力。此外,通过引入通道多样性损失,保证了不同表情特征的分离度,进一步提升模型的性能。
这项技术的意义在于,传统的FER方法在面对领域差异大的测试集时效果有限,而本文的方法无需额外的目标领域样本微调,能够更好地适应不同的数据集,提高模型的实际应用效果。
论文作者:Yuhang Zhang,Xiuqi Zheng,Chenyi Liang,Jiani Hu,Weihong Deng
作者单位:Beijing University of Posts and Telecommunications
论文链接:http://arxiv.org/abs/2408.10614v1
项目链接:https://github.com/zyh-uaiaaaa/Generalizable-FER
内容简介:
1)方向:人脸表情识别(FER)
2)应用:人脸表情识别
3)背景:现有的人脸表情识别(FER)方法在处理与训练集存在领域差距的测试集时表现不佳。最近的领域适应FER方法需要获取目标领域的标注或未标注样本来微调FER模型,这在实际应用中可能不可行。
4)方法:本文提出一种新的FER流程,通过从任何给定的面部图像中提取与表情相关的特征来提高零-shot泛化能力。该方法基于如CLIP等大型模型提取的通用面部特征,但将这些通用特征适应于FER任务并不简单。为了保持CLIP的泛化能力和FER模型的高精度,本文设计了一种新方法,通过基于固定CLIP面部特征学习sigmoid掩码来提取表情特征。为了进一步提高在未见过的测试集上的泛化能力,本文将学习到的掩码特征的通道按照表情类别分离,以直接生成logits,并避免使用全连接层以减少过拟合。此外,本文还引入了通道多样性损失以使学习到的掩码更为分离。
5)结果:在五个不同的FER数据集上的广泛实验验证了该方法在表情识别任务中的显著优势,超越了现有的最先进FER方法。代码:https://github.com/zyh-uaiaaaa/Generalizable-FER。