DeFLOCNet: Deep Image Editing via Flexible Low-level Controls阅读笔记
Abstract
图像编辑场景中,输入有空白的图像,期望网络能自动填充该区域。现有方法时将输入图像和用于CNN输入的低级控件相结合,但是特征不足,不稳定。本文提出一种基于深度编码器-解码器神经网络的去模糊神经网络。
在每个跳跃连接层,我们设计了一个结构生成块。将控件直接注入每个结构生成块,用于CNN特征空间草线图和颜色特征的传播。
同时包含一个纹理生成和细节增强的解码器分支。
1 Introduction
可用于数据增强,遮挡消除和隐私保护领域。
现有尝试利用高级输入(语义解析图、属性、潜在编码、语言和视觉上下文)生成语义信息。
DeFLOCNet,建立在一个深度编码器-解码器上,用于在空白区域上生成结构和纹理。我们贡献的核心是一个新颖的结构生成模块,它插入到网络中的每个跳跃连接中。
低级控制直接注入这些块,用于特征空间中的草图线生成和颜色传播。来自这些块的结构特征被相应地连接到原始解码器特征
此外,我们还介绍了另一种纹理生成解码器。
纹理生成解码器的每一层都连接到原始解码器,用于纹理增强。
因此,在CNN特征空间中有效地产生了结构和纹理。
2 Related Work
Deep Generative Models.
Image Editing.
3 DeFLOCNet
DeFLOCNet建立在一个编码器-解码器CNN模型的基础上。编码器的输入是具有任意孔区域的图像。
Low-level controls,被送入结构生成模块(SGB)。
提出另一个解码器分支,称为纹理生成分支(TGB)。
然后SGB和TGB的特征与原始解码器特征分层融合。
Motivation.
普通的编码器-解码器CNN可能普遍用于图像生成,而它不足以恢复空洞区域中丢失的内容,这些空洞区域几乎是空的,具有稀疏的低级控制。
增强的特征与纹理生成特征一起,以由粗到细的方式补充了原始解码器特征,
3.1 Structure Generation
SGB模块结构: 包含三个分支,素描线生成、颜色传播和特征融合。
当一个SGB的大小被集成到一个较浅的编码器层时,它会增加,因为较浅的编码器层接近图像级别,并且我们需要更强的低级别来指导特征融合分支将草图和颜色特征注入到原始特征中,以产生输出编辑结果生成。
融合分支将草图和颜色特征注入到原始特征中,以产生输出编辑结果。
Control injection.
输入特征图 F i n ∈ R H × W × C F^{in} \in R^{H\times W\times C} Fin∈RH×W×C , L L L是我们想要注入 F i n F^{in} Fin的信息。假设注入操作 I ( . ) I(.) I(.),注入后的输出特征是 F x , y , c o u t = I ( F x , y , c i n , L ) F^{out}_{x,y,c} = I(F^{in}_{x,y,c},L) Fx,y,cout=I(Fx,y,cin,L)
**Sketch line generation. **
素描线生成
Color propagation.
色彩传播
Fusion
素描线和颜色分支中的特征,通过注射操作融合一起。
3.2 Texture Generation
调制特征表示结构内容,而纹理表示是有限的。这部分是因为注入跳过连接层的低级控制不包含足够的纹理指导。
由于编码器特征与低级控制无关,我们提出了一个纹理生成分支,它将最后一个编码器层的特征作为输入。
TGB通过残差聚合补充解码器特征。由于结构特征是通过SGB学习的,TGB将重点关注代表区域细节的特征。然后,丰富的解码器特征与来自SGB的特征连接,用于输出生成,其中在孔区域中既有结构又有纹理。
3.3 Objective Function
使用几个目标损失函数来端到端的方式训练网络,函数包括,像素重构损失、感知损失、风格损失、相对论平均LS对抗损失[12]和总变差损失[16]。
Pixel reconstruction loss
Prceptual loss.
Style loss.
Relativistic average LS adversarial loss.
Total variation loss
Total losses