文章主要贡献:
1,提出一个STRCN模型,来解决MER问题,这是第一次在MER问题上,考虑到时空变形;
2,提出两种对视频的STRCN在时间维度的连接,不但考虑了空间信息,还考虑了时间信息。
3,我们设计了一种数据加强策略,极大地丰富了训练样本,采用了一个balanced loss,来简化不平衡的训练。
文章的framework:
Framework主要分为三步:空间和时间处理,临时连接和时空模型。为了在有限的和不平衡的数据下训练神经网络,参数学习也是很重要的一个环节。
第一步,对微表情视频序列进行预处理。空间上,人脸裁剪和人脸对齐,移除非人脸区域。在时间上,对面部变形区域被加强,增强微表情的细微改变。
第二步,两种时间类型的连接,把序列输入送进神经网络,The first type (denoted as STRCN-A) is an appearance based way,the second one (denoted as STRCN-G) is a geometric based way.
最后,一个有着深度RCNN的时空模型被用来进行微表情识别。
具体的,我们研究了跨时间域传递信息的两种时态连接,第一种,把所有的图片串联成一个序列,通过将图像的一个通道向量化为矩阵列,将所有图像连接到一个序列中,时空变化信息被保存在一个混合矩阵,之后STRCN就可以学习面部特征了。这种称为as appearance based connectivity (abbreviated as STRCN-A)。第二种,用光流来描述几何变形,之后用STRCN来学习面部特征,call it as geometric based connectivity (abbreviated as STRCN-G)。两种网络结构如下图所示,
1,.Spatial and Temporal Processing
采用眼部探测器,还有ASM算法来定位关键点。先检查出眼部,作为ASM的起始区域,之后检测出整个脸部,最后进行人脸对齐。人脸对齐运用a local weighted mean(LWM) transformation,(参考论文Recognising spontaneous facial micro-expressions)。
时间上的处理,使用Eulerian Video Magnification(EVM),即欧拉视频放大技术,放大的临时运动用下式计算,
为了放大细节变化,采用an infinite impulse response (IIR) filter作为时间过滤器,只用一个过滤器作为带通滤波器。
#2,Temporal Connectivity
##2.1>Type 1: Appearance based Connectivity
通过放大细节变化,可以把人脸分为微表情相关和微表情无关区域,文章只选用和微表情有关的区域,之后串联到矩阵列中,微表情相关区域的选择利用的是局部区域掩码,为得到掩码,先计算a difference heat map,通过累计整个视频序列在时间上的差别,来计算a difference heat map,经过阈值化之后得到掩码,
difference heat map用下式计算,
通过计算累计时间上的不同得到一个,difference heat map,之后选取矩阵值里面前p%的位置作为掩码,这些位置的值设为1 ,其余设为0,有了这些掩码,就可以得到微表情有关区域。
##2.2> Type 2: Geometric based Connectivity:
通过计算光流,考虑到微表情序列的特点,为了减少计算量,只计算微表情出现时的apex和onset,之后光流图被送进网络。用图片变化来粗略得到微表情开始变化的图像帧的位置,得到只有微表情的图片序列之后,就可以计算精确的光流。为了加快计算,采用Lorentzian penalty function with improved model作为估计算法,So the entire video in STRCN-G can be denoted as a tensor。
#3,Spatiotemporal Modeling
网络包括一个前向传播,之后是几层RCL,之后就是a global average pooling layer,接着是the classificatory layer with Softmax function is employed to calculate the recognition probabilities with concatenated feature vector。
##3.1>参数学习
鉴于数据量小,且每个类别地微表情训练样本不均衡,会影响到训练效果。所以就采用了两种策略。namely, multi-class balanced loss and multi-scale data augmentation to train the deep RCNs.
作者将binary balanced loss(参考Focal loss for dense object detection)用到MER问题。而数据加强就是再放大时采用不同的放大系数,这样数据就会被丰富数十倍,之后再按百分比随机选取图片组成序列,作者选了五个百分比,这样数据就会被加强50倍。
#4,实验实施过程,细节
脸部裁剪的相关参数设置,还有视频放大技术用到的过滤器的频率带。在放大因子选择上,测试图片α = 8。对于图片大小设定,64x45 for STRCN-A (type 1) and 300×245 for STRCN-B (type 2), For the mask generation in STRCN-A,considering the trade-off between the dimensionality reduction and information preserving, we choose the percentile value p = 30% as the threshold.掩码选择时最大用到70%,对于类型一,选择30帧作为网络的输入。
RCNs的结构如下图所示,
For learning parameters, the momentum is set to 0.9 and weight decay 0.0005 in stochastic gradient decent (SGD) procedure of BPTT. The stopping criterion for SGD is set to 10 −3 for iterations. The learning rate is set to 10 −3 in the beginning and will be multiplied with damping factor 0.8 when all mini-batches are traversed and re-allocated randomly.To accelerate the parameter learning, we employ the library MatConvNet [55] to accomplish our proposed model.
在测试方法上,leave-one-subject-out (LOSO) and leave-one-video-out (LOVO)都进行了比较。使用准确率和F1-score来评价模型来避免训练样本类别不均衡的问题,
最后,作者考察了一些变量对结果的影响,如Totally, the data augmentation,
he balanced loss, the accuracy performance of the percentage threshold p, the size of feature maps and the number of recurrent layers。