引言
引言部分其实没说什么,就提了一句:如果我们用权重去衡量 “每个patch” 或 “某些区域”在表情识别任务中的重要性的话会更好。比如微笑表情其实和嘴角区域的关系更大,可以给这个区域赋予更高的权重;额头区域在微笑表情的判别任务中似乎没有太重要,所以可以给这个区域赋予更低的权重。
网络结构
网络结构分为3部分:VGG- Face、SERD、MPVS-Net。
首先上两个网络整体图
接下来介绍每个部分的功能:
(1)VGG- Face:16层卷积层、5个池化层、三个全连接层。本文用微调后的VGG- face作为主干网络来提取特征,特征输出维度为512 * 7 * 7
(2)SERD:先上图,结合图来介绍