文章的主要观点是:微表情的处理中,从视频序列得到光流的过程中,由于微表情的运动比较小,容易受到噪声干扰,从而得到不准确的光流,另外,由于微表情的运动只发生在脸部的一小部分区域,所以之前将所有脸部区域给与同等权重的做法是不合理的。
基于上述观点,作者根据相邻两帧图片中的人脸的运动方向是一致的,而噪声的方向是随机的,所以,将相邻几帧得到的光流进行累加,这样就会消除大部分干扰。
比如说,一段有L帧图片的视频,会得到L-1帧光流图,将这些光流图分成S组,每组内的光流图进行累加(至于每组选几个光流图后文会有讨论),合成一幅光流图,就会消除绝大部分干扰。结果还不错,上图。(下图进行了光流可视化)
在得到光流幅值的累加之后进行归一化,化到[0,1]之间,这样就会得到一个和原图同尺寸的权重矩阵。
权重矩阵怎么用?作者想到了LBP-TOP特征(这个我只了解LBP,下次学习一下),可以参考下面这篇博客:
https://blog.csdn.net/matrix_space/article/details/52136900
这个应该是权重矩阵同尺寸的矩阵,之后就是把权重相应的乘上去,
剩下的就简单了,直接用SVM进行多分类就可以进行表情识别了。
之后作者实验了一下每组光流的具体数值,于是就做了几组实验,
在不同的数据集上,个数还不一样,不过差别不大。除此之外,作者有比较了不同的权重使用策略。比如只在X-Y上使用权重,还是在XY,XT,YT三个上面都使用(个人觉得肯定全使用最好,有点多此一举,但是确实要讲一下,作者没错),实验结果如下,
下表是本文方法和不同方法的比较,
A weighted feature extraction method based on temporal accumulation of optical flow for MER阅读笔记
最新推荐文章于 2022-11-08 17:55:44 发布