这篇论文task是表情识别,给出两个模型:
1. frame-based model:基于一张图像,compact CNN进行表情识别;
2. frame-to-sequense model:基于序列图像而不是单张图像,主体包括两部分:上文提到的提取特征的CNN网络和进行识别的Gated Recurrent Neural Network,其实就是在单张图像的识别基础上利用了序列信息,进一步提高了准确率。
先看第一个模型,CNN的结构非常简单,如下图所示:
该网络有几个特点:
1. 非常浅的网络,在一个最大池化(max pooling)前叠加两个卷积;
2. 卷积核比较大(5*5),具有较大的感受野,每一个池化后感受野应该是18,两次后为36;
3. 减少全连接层的神经元个数,减少了参数同时保证了准确率。
根据感受野推断出feature maps大小变化过程为:96—92—88—44—40—36—18,然后进入全连接层,得到一组概率值。
在此基础上,如果具有了图像序列,可以使用第二个模型:
基于图像序列的表情识别可以