人脸表情系列：论文阅读——Peak-Piloted Deep Network for Facial Expression Recognition

最新推荐文章于 2024-03-19 13:51:20 发布

burning_planet

最新推荐文章于 2024-03-19 13:51:20 发布

阅读量1.2k

点赞数 1

分类专栏： Machine Learning Deep Learning

本文链接：https://blog.csdn.net/lynlindasy/article/details/100053427

版权

Deep Learning 同时被 2 个专栏收录

40 篇文章 3 订阅

订阅专栏

Machine Learning

39 篇文章 6 订阅

订阅专栏

这篇论文的task是表情识别，从目标函数(object function)入手，即修改了监督信息：之前的目标函数是针对单个样本/表情图像进行计算的，该论文提出一个peak-piloted deep network（PPDN），使用来自同个体(subject)，同表情(expression)的峰值图像/easy sample/peak expression作为非峰值图像/hard sample/non-peak expression的监督信号，以加强表情识别能力。

关于peak expression和non-peak expression，论文中定义如下：In a videostream, an expression will first appear in a subtle form and then grow into a strong display of the underlying feelings. We refer to the former as a non-peak and to the latter as a peak.

论文中提出，目前FER主要问题有三点：1. 个体之间的面部差异性导致同样的表情也具有不同强度的响应；2. 同一个个体的同一个表情存在peak和non-peak的问题，响应也不同；3. non-peak expression的图像更容易采集，但难检测，因为不同表情间的区分度不足。

基于以上问题，如果单纯将所有sample分别处理，则没能利用peak和non-peak所组成的pairs中的内在联系，因为同一个个体的peak和non-peak之间其实是不存在个体差异的，也就是上文提到的FER中的第一个问题。因此联想到，如果能充分利用pairs，因该可以提高模型的识别能力。

peak-piloted deep network（PPDN）结构如下图所示：

网络输入是两张图像所组成的pair，这两张图像属于同一个个体的同一个表情(peak expression 和non-peak expression)，通过卷积层分别得到两张图像的两个编码/intermediate features，通过求两者间的L2 loss使得non-peak expression的高级特征也就是编码向peak expression的靠近(相当于指定了优化的方向)。网络参数的更新由L2 loss和两张图像分别FER的交叉熵(recognition loss)共同决定，目标函数如下所示：

目标函数 $J$ 包括三大项：

1. $J_{1}$ 为图像pair通过网络提取的特征间的差的L2 loss，通过 $J_{1}$ 将图像pair间的表情的渐变过程隐含在了网络中，因为两张图像来自同一个体同一表情，最大差异就是表情强度而已。同时，这个L2 loss并没有在图像层次上直接进行计算，而是在高级特征上进行，因为表情本身就是比较抽象的特征，其强弱更难在像素上直接辨别。提取特征后进行优化，应该能更加直接有效。这一项优化后会使得网络对peak和non-peak expression提取出的特征几乎相同，保证了对non-peak expression的识别能力；

2. $J_{2}$ 和 $J_{3}$ 是图像pair分别做表情识别的loss，仅依靠第一项会使得网络对图像pair得到的特征非常接近，但这个特征并不意味着在后续的识别中具有较好的准确率。为了保证网络的识别能力，对两张图像继续进行FER，并计算它们的交叉熵作为loss；

3. 最后一项正则化用于降低网络参数复杂度。

主体网络(Convolutional Architecture)包含卷积层和最大池化层，采用了GoogleNet的结构。卷积后通过两个全连接层，第一个fc layer将feature maps转化为1024的vector也就是intermediate feature，从而计算pair间的差异；第二个fc layer输出长度为6的vector也就是识别结果，以计算交叉熵。

以上的目标函数只是在缩小non-peak和peak间的差距，还不能实现non-peak向peak的单方向演变，如何保证这个方向呢？论文中提出了一种梯度下降算法Peak Gradient Suppression (PGS)，使用普通梯度下降和PGS进行目标函数优化的差异如下：

公式(2)为普通的梯度下降，很明显目标函数J的每一项都要对参数W求偏导；公式(3)为本文使用PGS，其中缺少了一项：

优化中没有此项，导致目标函数J中第一项 $J_{1}$ 的最小化只能通过对non-peak expression的特征改变实现，优化后的参数会使得non-peak的特征向peak靠拢，这也就是前面提到的方向。该方法保证了网络对peak expression的识别能力不会下降，同时加强non-peak expression的识别能力。识别能力到底是如何加强的呢：该网络能够对non-peak提取出和它同个体同表情的peak expression非常接近相似的特征，就相当于后续的部分是在对peak expression进行识别。其实相当于训练时保留了两者相似部分也就是低级特征(identical information等)实现了invariant，着重利用了图像pair间的残差(expression intensity)。

burning_planet

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
人脸表情系列：论文阅读——Peak-Piloted Deep Network for Facial Expression Recognition

这篇论文的task是表情识别，从目标函数(object function)入手，即修改了监督信息：之前的目标函数是针对单个样本/表情图像进行计算的，该论文提出一个peak-piloted deep network（PPDN），使用来自同个体(subject)，同表情(expression)的峰值图像/easy sample/peak expression作为非峰值图像/hard sample/no...
复制链接

扫一扫