本文由北大与京东AI联合提出,旨在解决人脸解析中的边缘相关的图表示学习与推理任务。
人脸解析:将每个脸部组件的像素标记推断出来
以往的方法虽然在人脸解析任务中效率较高,但是存在一个缺点:忽略了不同面部区域之间的相关性。
本文的方法:通过学习图表示来对区域关系进行建模和推理,并利用区域之间的边缘信息来优化抽象。
大致流程:首先将人脸图像编码到具有相似特征的像素的集合,然后通过在图上的各个顶点之间传播信息来了解区域之间的关系并为其推理。最后,学习的图表示将投影回像素网格进行解析。
1.引言
脸部解析:为面部每个语义组件分配一个像素级标签,是语义分割中的一项特殊任务。
应用:面部理解,编辑,合成和动画
以往的方法:基于区域来分别对面部成分建模;缺点:只是基于每个区域内的单个信息,并且没有利用区域之间的相关性,而且不能捕获远程依赖关系。
实际上,面部成分彼此之间具有丰富的相关性。面部成分之间的相关性是面部表示中的关键线索,在面部解析中应予以考虑。
为了解决捕获远程依赖关系的问题,本文提出一种新的边缘相关图表示方法以学习面部图像的图表示,该图表示对区域之间的关系进行建模,并实现对非局部区域的推理以捕获远距离依赖性。
基本思想:首先,桥接面部图像像素和图顶点,投影具有与每个顶点相似的特征的像素集合。区域中的像素级特征汇总为相应的顶点。此外,图表示通过在所有顶点上传播信息来学习面部区域之间的关系,即顶点之间的图连通性,以及关系的推理。该图可以捕获面部图像中的远距离相关性。最后将学习到的图表示形式投影回像素网格以进行面部分析。由于顶点的数量显着小于像素的数量,因此图表示也有效地减少了特征上的冗余以及计算复杂度。
本文的主要贡献:
1.通过在区域级图表示上建模来利用区域之间的关系进行人脸解析,在该区域中投影具有与每个顶点相似的特征的像素集合,并推理出这些关系以捕获远距离依赖性。
2.在像素到顶点的特征投影中引入了边缘注意力,它在每个顶点的特征聚集过程中强调边缘像素的特征,从而强制沿边缘进行精确分割。
2.方法
2.1总览
给定输入的面部图像,旨在预测相应的解析标签和辅助边缘图。如图1
图1 框架整体流程
整体框架包括以下三个过程:
1.特征与边缘提取 以ResNet为骨干,提取不同级别的特征以进行多尺度表示。 低级特征包含更多细节,但缺少语义信息,而高级特征以图像细节为代价,为全局信息提供了丰富的语义。为了充分利用高级功能中的全局信息,本文采用了空间金字塔池化操作来学习多尺度上下文信息。 此外构造了一个边缘感知模块以获取后续模块的边缘图。
2.边缘相关图推理 将特征图和边缘图输入到边缘感知图推理(EAGR)模块中,旨在学习内在图表示法以表征区域之间的关系。EAGR模块由三个操作组成:图投影,图推理和图重投影,原始投影将特征以边缘感知的方式放置到顶点上,说明图上顶点之间的关系,并将学习到的图表示投影回像素网格,从而生成具有相同大小的精炼特征图。
3.语义解码 将经过精炼的特征融合到解码器中,以预测人脸解析的最终结果。 高级别特征图被上采样到与低级别特征图相同的维度。 将两个特征图连接起来并利用1×1卷积层减少特征通道,预测最终的解析标签。
2.2边缘相关图推理
图 2 边缘相关图推理
目的:建立远距离区域之间的远程互动。
方法:提出边缘感知图推理来对模型进行建模图上区域之间的远程关系,包括边缘感知图投影,图推理和图重投影。
边缘感知图投影 首先重新访问non-local模块。 给定一个特征图 X ∈ R H W × C X∈R^{HW×C} X∈RHW×C,其中H和W分别表示输入图像的高度和宽度,C是特征通道的数量。non-local模块公式如下:
其中θ,ϕ和γ是内核大小为1×1的卷积运算。 V ∈ R H W × H W V∈R^{HW×HW} V∈RHW×HW为对远程依赖关系进行建模的注意力图。 随着像素HW数量的增加,缩放的效果不佳。 为了解决这个问题,本文提出了一种边缘感知投影操作,以消除功能上的冗余。
给定输入特征图 X ∈ R H W × C X∈R^{HW×C} X∈RHW×C和边缘图 Y ∈ R H W × 1 Y∈R^{HW×1} Y∈RHW×1,通过将X映射到以Y为先验的图的顶点来构造投影矩阵P。首先通过核大小为1×1的卷积运算reduce减小特征空间中