转载请注明作者和出处: http://blog.csdn.net/john_bh/
论文链接: Aggregation via Separation: Boosting Facial Landmark Detector with Semi-Supervised Style Translation
作者及团队:港中文大学 & 清华大学 & 商汤科技 & 腾讯优图
会议及时间:ICCV 2019
code: 作者开源github 地址
文章目录
1.主要贡献
作者将人脸图像分解为可捕获照明,纹理和图像环境的样式空间,以及样式不变的结构空间,利用 disentangled 的样式和形状空间通过样式转换来增强现有结构 ,有了这些扩充的合成样本,半监督模型出乎意料地胜过了全监督模型。并且在WFLW,300W,COFW,AFLW数据集上表现SOTA。
图像的 content:objects, semantics and sharp edge maps;
图像的 style :color, texture
作者将 image background, lighting,quality, existence of glasses, and other factors that prevent detectors from recognizing facial geometry 称为“style"
因为每个人脸图像都可以分解为具有独特属性的 facial structure。 于是作者猜想,如果仅根据图像的样式来增强图像,则面部对齐可能会更鲁棒。
- 将人脸图像映射到结构和样式的空间中,而不是直接生成图像。为了保证这两个空间的分离,设计了条件变分自动编码器模型(conditional variational auto-encoder)。
- 在现有的 facial geometry 之间进行 style translation,将现有的人脸图像从对应的样式重新渲染成模糊、光照、质量较差或者戴着眼镜等 “style” 的人脸图像。
- 将渲染后的人脸图像进一步训练 facial landmark detectors,从而获得更加鲁棒的人脸关键点检测器。
2. AVS Framework
AVS框架由两部分组成。如图2所示,在第一阶段,提出了条件变分自动编码器,用于学习风格和结构之间的解耦表示。在第二阶段,使用解耦后并做了风格转换人脸图像数据进行 facial landmark detectors 模型训练。
第一阶段是训练可分解的组件。在第二阶段中,通过使用随机
k
k
k 个其他面孔的样式对原始数据集
X
X
X中的给定样本
x
x
x进行扩展和渲染,我们生成了
k
×
n
k×n
k×n个具有各自带注释 landmark 的“风格化”合成人脸图像。然后将这些样本与原始数据集一起送入人脸关键点检测器的训练中。
2.1 Learning Disentangled Style and Structure
给定人脸图像 x x x 和对应的 structure y y y,其中人脸 “content”用 landmark 表示(人脸 “content”用人脸几何形状表示,人脸几何形状用 landmark表示),style 则是隐性的环境因素。
With this setting, if the latent space of style and shape is mostly uncorrelated, using Cartesian product of z and y latent space should capture all variation included in a face image. Therefore, the generator that re-renders a face image based on style and structure can be modeled as p ( x ∣ y , z ) p(x|y, z) p(x∣y,z).
为了对 “style"和“structure” 进行编码并计算 p ( x ∣ y , z ) p(x|y, z) p(x∣y,z) 参数分布,作者使用了基于条件变量自动编码器的网络,该网络引入了两个编码器: E s t r u c t E^{struct} Estruct 和 E s t y l e E^{style} Estyle。
- E s t r u c t E^{struct} Estruct:将landmark 编码到 structure 的潜在空间 ;
- E s t y l e E^{style} Estyle:学习图形的样式嵌入,估计 p ( z ∣ x , y ) p(z|x, y) p(z∣x,y) 参数分布;
- D r e n d e r D^{render} Drender:解码器,将 “style” 和 ”structure" 重新渲染到图像空间。
使用 heat map 来表示 facial landmark(人脸几何形状),所以通过最大条件似然从人脸图像和 structure 中推断出解耦的 “style”
z
z
z:
所以,学习分离“style" 和 ”structure" 的损失函数是:
为什么使用 KL-Divergence Loss ?
- KL散度是度量后验分布 和 先验分布之间的相似性。在框架中,不鼓励使用Estyle来编码与结构相关的信息作为正则化。由于先验分布通常被假定为单位高斯分布 P 〜 N ( 0 , 1 ) P〜N(0,1) P〜N(0,1),因此通过将学习的 “style” 特征进行正则化来抑制包含通过重建来 “structure” 信息。
- KL离散损失限制了样式特征的分布范围和容量。通过将推断的 “style” z z z 与编码的 “structure” 进行融合,可以通过多级跳过连接从先前获得足够的 “structure” 信息。 z z z 中的额外 “structure” 在训练期间导致似然 p ( x ∣ y , z ) p(x | y,z) p(x∣y,z)的损失,而没有捕获任何新信息。这样,不鼓励 E s t y l e E^{style} Estyle 接受 E s t r u c t E^{struct} Estruct 在训练期间提供的 “structure” 信息。为了更好地重建原始图像,强制使用 E s t y l e E^{style} Estyle 来学习 “structure” 不变的 "style"信息。
Reconstruction Loss : 基本的像素 L 1 L1 L1或 L 2 L2 L2损失无法很好地建模图像中的丰富信息。而采用感知损失来捕获样式信息和生成更好的视觉质量。
- Φ \Phi Φ表示VGG-19网络
- l l l是 Φ \Phi Φ的层数索引
由于样式定义可能很复杂,因此 E s t y l e E^{style} Estyle 在此编码样式信号的语义,以模拟不同类型的降级,不必维护细粒度的视觉细节。此外,为了保留由 landmark y y y 编码的结构信息的先验性,在 E s t r u c t E^{struct} Estruct 和 D r e n d e r D^{render} Drender 之间建立了跳过连接,以避免通过样式转换产生错误的 landmark。
2.2. Augmenting Training via Style Translation
使用分离的 “structure” 和 “style”进行人脸风格化,给定有
n
n
n 个人脸数据集
X
X
X,每个人脸图像
x
i
x_i
xi ,landmark 用
y
i
y_i
yi 表示,
1
≤
i
≤
n
1 \leq i \leq n
1≤i≤n,将
x
j
x_j
xj 的 “style" 放在
x
i
x_i
xi 的 ”structure" 上,合成公式如下:
图3提供了样式转换结果的可视化:输入的人脸几何形状在严重的样式变化下得以保持,表明其在增强面部标志检测器训练方面的潜力。
尽管具有内聚的结构,但是解码器通常不会重新渲染完美质量的图像,因为丰富的样式信息的复杂性已减少到受其容量限制的参数高斯分布。另外,如前所述,每个面部图像
x
i
x_i
xi具有其自己的风格。从理论上讲,渲染器可以通过在任何图像样式下的渲染每个可用的 landmark 来合成
n
2
n^2
n2 张图像。
3. Experiments
3.1 WFLW 、300W、AFLW and COFW
- WFLW:
- 300W
- COFW:评估算法对存在遮挡的性能表现
- AFLW:评估算法对 large pose 的性能表现。
3.2 Ablation Study
样式和结构的分离是影响样式增强样本质量的关键。 作者评估 disentanglement 的完整性,尤其是在训练样本有限的情况下。 为了评估训练数据有限时avs方法的性能和相对收益,将训练集分为10个子集,分别对训练数据的不同部分评估模型。请注意,对于不同部分,从零开始训练模型 没有使用额外的数据。 定量结果见表4和表5。
在表4中,使用轻型基线网络Res-18来显示不同训练样本上的相对改进。 增强样式的合成图像可大大提高检测器的性能,而当训练图像的数量很少时,这种改进甚至更大。
在表5中,比较强的SAN 比较,与表1中提供的以前的方法相比,仅使用50%标记的图像,SAN就可以轻松达到最先进的性能。
此外,图6提供了使用部分数据时所生成的面部的直观视图,每列包含使用一部分面部图像数据时从输入结构和给定样式渲染的输出。 它显示了当数据有限时,分离组件倾向于捕获较弱的样式信息,例如颜色和照明。 给定更多数据作为示例,样式将变得复杂并捕获详细的纹理和降级,例如遮挡。
-
Estimating the Upper-bound
AVS 从概念上和经验上增强了 n 2 n^2 n2个合成样本的训练。 通过用 k k k 个随机样式增强每个面部图像,训练集可能会很大并且会减慢收敛速度。作者尝试选择样式增强因子 k k k 并测试样式转换的上限,通过在ResNet-50上添加每个带注释的 landmark 的随机采样样式 k k k 的数量来评估AVS。结果报告在表6中。通过添加许多增强样式,该模型继续得到改进。 但是,当 k ≥ 8 k \geq 8 k≥8 ,性能增长变慢。 如果 k k k 达到32,则开始减小。原因是由于实面和合成面之间的数量不平衡,当生成的图像量很大时,很大的 k k k 会使模型过度适合合成图像纹理。