《Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions》论文笔记

最新推荐文章于 2023-03-28 21:20:28 发布

hfutyfl802

最新推荐文章于 2023-03-28 21:20:28 发布

阅读量1.2k

点赞数

分类专栏：深度学习 RCNs 文章标签：微表情识别

本文链接：https://blog.csdn.net/hfutyfl802/article/details/101206405

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

RCNs

1 篇文章 0 订阅

订阅专栏

文章主要贡献：
1，提出一个STRCN模型，来解决MER问题，这是第一次在MER问题上，考虑到时空变形；
2，提出两种对视频的STRCN在时间维度的连接，不但考虑了空间信息，还考虑了时间信息。
3，我们设计了一种数据加强策略，极大地丰富了训练样本，采用了一个balanced loss，来简化不平衡的训练。
文章的framework:
在这里插入图片描述
Framework主要分为三步：空间和时间处理，临时连接和时空模型。为了在有限的和不平衡的数据下训练神经网络，参数学习也是很重要的一个环节。
第一步，对微表情视频序列进行预处理。空间上，人脸裁剪和人脸对齐，移除非人脸区域。在时间上，对面部变形区域被加强，增强微表情的细微改变。
第二步，两种时间类型的连接，把序列输入送进神经网络，The first type (denoted as STRCN-A) is an appearance based way，the second one (denoted as STRCN-G) is a geometric based way.
最后，一个有着深度RCNN的时空模型被用来进行微表情识别。

具体的，我们研究了跨时间域传递信息的两种时态连接，第一种，把所有的图片串联成一个序列，通过将图像的一个通道向量化为矩阵列，将所有图像连接到一个序列中，时空变化信息被保存在一个混合矩阵，之后STRCN就可以学习面部特征了。这种称为as appearance based connectivity (abbreviated as STRCN-A)。第二种，用光流来描述几何变形，之后用STRCN来学习面部特征，call it as geometric based connectivity (abbreviated as STRCN-G)。两种网络结构如下图所示，
在这里插入图片描述
1，.Spatial and Temporal Processing
采用眼部探测器，还有ASM算法来定位关键点。先检查出眼部，作为ASM的起始区域，之后检测出整个脸部，最后进行人脸对齐。人脸对齐运用a local weighted mean(LWM) transformation，（参考论文Recognising spontaneous facial micro-expressions）。
时间上的处理，使用Eulerian Video Magnification（EVM），即欧拉视频放大技术，放大的临时运动用下式计算，
在这里插入图片描述
为了放大细节变化，采用an infinite impulse response (IIR) filter作为时间过滤器，只用一个过滤器作为带通滤波器。
#2，Temporal Connectivity
##2.1>Type 1: Appearance based Connectivity
通过放大细节变化，可以把人脸分为微表情相关和微表情无关区域，文章只选用和微表情有关的区域，之后串联到矩阵列中，微表情相关区域的选择利用的是局部区域掩码，为得到掩码，先计算a difference heat map，通过累计整个视频序列在时间上的差别，来计算a difference heat map，经过阈值化之后得到掩码，
difference heat map用下式计算，
在这里插入图片描述

通过计算累计时间上的不同得到一个，difference heat map，之后选取矩阵值里面前p%的位置作为掩码，这些位置的值设为1 ，其余设为0，有了这些掩码，就可以得到微表情有关区域。
在这里插入图片描述
##2.2> Type 2: Geometric based Connectivity:
通过计算光流，考虑到微表情序列的特点，为了减少计算量，只计算微表情出现时的apex和onset，之后光流图被送进网络。用图片变化来粗略得到微表情开始变化的图像帧的位置，得到只有微表情的图片序列之后，就可以计算精确的光流。为了加快计算，采用Lorentzian penalty function with improved model作为估计算法，So the entire video in STRCN-G can be denoted as a tensor。
#3，Spatiotemporal Modeling
在这里插入图片描述
网络包括一个前向传播，之后是几层RCL，之后就是a global average pooling layer，接着是the classificatory layer with Softmax function is employed to calculate the recognition probabilities with concatenated feature vector。
##3.1>参数学习
鉴于数据量小，且每个类别地微表情训练样本不均衡，会影响到训练效果。所以就采用了两种策略。namely, multi-class balanced loss and multi-scale data augmentation to train the deep RCNs.
作者将binary balanced loss（参考Focal loss for dense object detection）用到MER问题。而数据加强就是再放大时采用不同的放大系数，这样数据就会被丰富数十倍，之后再按百分比随机选取图片组成序列，作者选了五个百分比，这样数据就会被加强50倍。
#4，实验实施过程，细节
脸部裁剪的相关参数设置，还有视频放大技术用到的过滤器的频率带。在放大因子选择上，测试图片α = 8。对于图片大小设定，64x45 for STRCN-A (type 1) and 300×245 for STRCN-B (type 2), For the mask generation in STRCN-A,considering the trade-off between the dimensionality reduction and information preserving, we choose the percentile value p = 30% as the threshold.掩码选择时最大用到70%,对于类型一，选择30帧作为网络的输入。
RCNs的结构如下图所示，
在这里插入图片描述
For learning parameters, the momentum is set to 0.9 and weight decay 0.0005 in stochastic gradient decent (SGD) procedure of BPTT. The stopping criterion for SGD is set to 10 −3 for iterations. The learning rate is set to 10 −3 in the beginning and will be multiplied with damping factor 0.8 when all mini-batches are traversed and re-allocated randomly.To accelerate the parameter learning, we employ the library MatConvNet [55] to accomplish our proposed model.
在测试方法上，leave-one-subject-out (LOSO) and leave-one-video-out (LOVO)都进行了比较。使用准确率和F1-score来评价模型来避免训练样本类别不均衡的问题，
在这里插入图片描述

最后，作者考察了一些变量对结果的影响，如Totally, the data augmentation,
he balanced loss, the accuracy performance of the percentage threshold p, the size of feature maps and the number of recurrent layers。