人脸表情系列:论文阅读——Peak-Piloted Deep Network for Facial Expression Recognition

这篇论文的task是表情识别,从目标函数(object function)入手,即修改了监督信息:之前的目标函数是针对单个样本/表情图像进行计算的,该论文提出一个peak-piloted deep network(PPDN),使用来自同个体(subject),同表情(expression)的峰值图像/easy sample/peak expression作为非峰值图像/hard sample/non-peak expression的监督信号,以加强表情识别能力。

关于peak expression和non-peak expression,论文中定义如下:In a videostream, an expression will first appear in a subtle form and then grow into a strong display of the underlying feelings. We refer to the former as a non-peak and to the latter as a peak.

论文中提出,目前FER主要问题有三点:1. 个体之间的面部差异性导致同样的表情也具有不同强度的响应;2. 同一个个体的同一个表情存在peak和non-peak的问题,响应也不同;3. non-peak expression的图像更容易采集,但难检测,因为不同表情间的区分度不足。

基于以上问题,如果单纯将所有sample分别处理,则没能利用peak和non-peak所组成的pairs中的内在联系,因为同一个个体的peak和non-peak之间其实是不存在个体差异的,也就是上文提到的FER中的第一个问题。因此联想到,如果能充分利用pairs,因该可以提高模型的识别能力。

peak-piloted deep network(PPDN)结构如下图所示:

网络输入是两张图像所组成的pair,这两张图像属于同一个个体的同一个表情(peak expression 和non-peak expression),通过卷积层分别得到两张图像的两个编码/intermediate features,通过求两者间的L2 loss使得non-peak expression的高级特征也就是编码向peak expression的靠近(相当于指定了优化的方向)。网络参数的更新由L2 loss和两张图像分别FER的交叉熵(recognition loss)共同决定,目标函数如下所示:

目标函数J包括三大项:

1. J_{1}为图像pair通过网络提取的特征间的差的L2 loss,通过J_{1}将图像pair间的表情的渐变过程隐含在了网络中,因为两张图像来自同一个体同一表情,最大差异就是表情强度而已。同时,这个L2 loss并没有在图像层次上直接进行计算,而是在高级特征上进行,因为表情本身就是比较抽象的特征,其强弱更难在像素上直接辨别。提取特征后进行优化,应该能更加直接有效。这一项优化后会使得网络对peak和non-peak expression提取出的特征几乎相同,保证了对non-peak expression的识别能力;

2. J_{2}J_{3}是图像pair分别做表情识别的loss,仅依靠第一项会使得网络对图像pair得到的特征非常接近,但这个特征并不意味着在后续的识别中具有较好的准确率。为了保证网络的识别能力,对两张图像继续进行FER,并计算它们的交叉熵作为loss;

3. 最后一项正则化用于降低网络参数复杂度。

主体网络(Convolutional Architecture)包含卷积层和最大池化层,采用了GoogleNet的结构。卷积后通过两个全连接层,第一个fc layer将feature maps转化为1024的vector也就是intermediate feature,从而计算pair间的差异;第二个fc layer输出长度为6的vector也就是识别结果,以计算交叉熵。

以上的目标函数只是在缩小non-peak和peak间的差距,还不能实现non-peak向peak的单方向演变,如何保证这个方向呢?论文中提出了一种梯度下降算法Peak Gradient Suppression (PGS),使用普通梯度下降和PGS进行目标函数优化的差异如下:

公式(2)为普通的梯度下降,很明显目标函数J的每一项都要对参数W求偏导;公式(3)为本文使用PGS,其中缺少了一项:

优化中没有此项,导致目标函数J中第一项J_{1}的最小化只能通过对non-peak expression的特征改变实现,优化后的参数会使得non-peak的特征向peak靠拢,这也就是前面提到的方向。该方法保证了网络对peak expression的识别能力不会下降,同时加强non-peak expression的识别能力。识别能力到底是如何加强的呢:该网络能够对non-peak提取出和它同个体同表情的peak expression非常接近相似的特征,就相当于后续的部分是在对peak expression进行识别。其实相当于训练时保留了两者相似部分也就是低级特征(identical information等)实现了invariant,着重利用了图像pair间的残差(expression intensity)。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值