Suppressing Uncertainties for Large-Scale Facial Expression Recognition阅读笔记

本文介绍了Self-Cure Network(SCN),一种用于抑制大型面部表情识别数据集标注不确定性问题的方法。通过self attention importance weighting和ranking regularization,SCN有效地增强了确定性表达的权重,同时抑制了噪声标签的影响。实验结果显示,SCN在带有噪声标签的数据集上表现出色,特别是在RAF-DB数据集上,精度达到了88.14%。
摘要由CSDN通过智能技术生成

原文地址和源代码

注:2020年4月4日查看github地址,仍未公布源代码。
本文中图片权重的分配,损失函数的设计等思路和作者的另一篇RAN原文(已被TIP接受),RAN解读的思路是相似的,建议两篇论文一起食用会更佳。

解决问题

  • 主要问题

如图所示,从左到右,表情逐渐不确定,现在的大型数据集存在着一定的标注不确性问题。

  1. 标注者的主观性。 一千个读者有一千个哈姆雷特,表情因不同的标注者的主观判断差异性,标注结果可能不同。
  2. 表情图片的二义性。 一张表情图片可能包含几种不同的表情,如白夜追凶最后一幕,左半边脸是邪魅一笑,右半边脸是冷静沉稳。所以会有研究者采用多标注者多label的方式来标注一张图片,如FERPlus
  3. 遮挡,光照,图片质量问题等因素影响标注结果。
  • 可能的影响

noise label会对训练产生以下几种影响:

  1. 过拟合;
  2. 不利于学习有效表情特征;
  3. 高比率的错误标签使模型初期不收敛

解决方法

作者提出的SCN(Self-Cure Network)能有效的抑制图片的这种不确定性。

  • self attention importance weighting:为batch中的每张图片分配权重
  • ranking regularization:按权重降序排列,加强确定,抑制非确定(RR-Loss)
  • noise relabeling:尝试将noise label换成伪标签

网络模型

模型大致可以分为三个模块,首先用CNN Backbone提取epoch中每张图片(共有N张)的特征 F 1 , F 2 , ⋯   , F n − 1 , F n F_1, F_2, \cdots, F_{n-1}, F_{n} F1,F2,,Fn1,Fn.

  1. Self-Attention Importance Weighting Module. 提取的表情特征 F i F_i Fi经过全连接层,Sigmoid激活函数可以得到对应的权重 α i \alpha_i αi

  2. Rank Regularization Module. 将权重降序排列,按比例 β \beta β划分,前 M = N ∗ β M = N * \beta M=Nβ属于确定性区域,后 N − M N - M NM张图片属于非确定区域。通过RR-Loss来保证前一组权重的均值 α H = 1 M ∑ i = 0 M α i \alpha_H = \frac{1}{M}\sum\limits_{i = 0}^{M}\alpha_i αH=M1i=0Mαi至少要比后一组均值 α L = 1 N − M ∑ i = 0 N − M α i \alpha_L = \frac{1}{N - M}\sum\limits_{i = 0}^{N - M}\alpha_i αL=NM1i=0NMαi 大于 δ 1 \delta_1 δ1,在RAN中,作者也使用了相同的损失函数设计思路。通过RR-Loss可以加强确定区域,拟制非确定区域。
    L R R = m a x ( 0 , δ 1 − ( α H − α L ) ) L_{RR} = max(0, \delta_1 - (\alpha_H - \alpha_L)) LRR=max(0,δ1(αHαL))

  3. Rabeling Module. 权重经过Re-Weighting后,将表情特征用分类器进行分类(m类),会得到m个类别的分类概率 P 1 , P 2 , ⋯   , P m P_1, P_2, \cdots, P_m P1,P2,,Pm。正确类别的概率为 P g t I n d P_{gtInd} PgtInd,分类结果的概率为 P m a x P_{max} Pmax。作者定义了一个限制关系 P m a x > P g t I n d + δ 2 P_{max} \gt P_{gtInd} + \delta_{2} Pmax>PgtInd+δ2,当关系成立,表明这个标签可能是noise label,此时会进行Relabel操作,将原始类别修改为最大分类概率对应的类别。

实验

  • 权重可视化

第一行使用的是RAF-DB中的原始图片进行训练,第二行给原始图片的label加入噪声(修改label),然后用不带relabel的网络训练,我们会发现表情的权重相对原始图片的权重都有所下降,表明模型很好的对错误label的表情权重进行了抑制,第三行是带relabel的网络训练噪声label,可以发现模型对于happy表情的错误label能进行很好的纠正,其它表情也能取得较为接近的纠正效果。

  • SCN在合成的噪声数据集上的性能表现

SCN在噪声数据集上的表现要优于其它模型,在RAF-DB上的表现最佳。作者也对这一现象给出了原因,因为RAF-DB的label是由非专业人士标注,相对其它数据集来说,错误的标签更多。

  • SCN在各个模块的表现

  • 几个超参的评估

  • SCN在RAF、AffectNet、FERPlus上的性能表现

表现的很好,尤其是RAF-DB,达到88.14精度。

结论

作者独辟蹊径,不在原有的label上训练(某种程度上数据集已经不再是原来的数据集,比较似乎有点不公平), 尝试修改错误的label,来提高的训练精度。他的分区域以及损失函数的设计方式都有一定的借鉴意义。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值