task是表情识别,将一张图像视为两部分组成:expressive component和neutral component。从一张图像中生成该个体的无表情图像称为de-expression learning procedure,则这个过程中逐步抛掉的就是expressive component。既然是抛掉的部分,如何使用呢?本文借助同尺寸的两组feature maps,得到两者间的差也就是被抛掉的expressive component,这就是残差学习/residue learning的意思。
该方法着重解决了identity information给表情识别带来的问题,因为生成的图像和输入图像仅在表情上有所改变,无论是图像整体的光照还是个体的面部信息,都未发生改变,这样用于识别的残差就受这些因素影响很小。
网络结构如下图所示:
整个结构分为两部分,首先是一个cGAN的结构(上图的长方形框部分):输入是一对图像,经过Generator生成与输入对应的无表情图像,再由Discriminator判别