原文来源:arXiv
作者:Tali Dekel、Chuang Gan、Dilip Krishnan、Ce Liu、William T. Freeman
我们研究这样一个问题,根据稀疏轮廓位置存储的信息重构图像。研究结果证明,我们可以从稀疏输入中获得对源图像的高保真度的高质量重构,例如,包括少于6%的图像像素。与现有的基于轮廓的重构方法相比,这是一个重大改进,它需要更密集的输入以捕捉细微纹理信息并确保图像质量。我们的模型是基于生成式对抗网络的,在没有提供输入信息的区域内合成纹理和细节。编码到我们模型中的语义知识和输入的稀疏性允许使用轮廓作为用直观界面,以进行语义感知的图像处理:轮廓域中的局部编辑转换为像素空间中的长期和连贯变化。我们可以执行复杂的结构变化,比如通过缩放和移动等对轮廓进行简单编辑以改变面部表情。对各种数据集的实验验证了我们模型的多功能性和便利性。
我们的方法通过在稀疏轮廓位置的值的形式从输入表示中产生图像的高质量重构:一个 (512×512)的源图像(a)根据(b)中彩色轮廓集合中的梯度信息被重构为图像(c)。非零像素小于5%。即使在没有输入信息的区域,该模型也能合成头发纹理、面部线条和阴影。我们的模型允许在轮廓域中进行语义上的直观编辑。右上角:一个类似于漫画的结果(e)是通过对(d)的轮廓进行移动和缩放创建而来的。右下:通过粘贴一组从参考图像中拷贝出来的毛发轮廓,进而合成头发。经过编辑的轮廓用绿色标出,而原轮廓用红色标出。
轮廓是对图像的一种简洁而具有意义的表示,因为它们编码的是“事物”(”things”)而非“东西”(”stuff”)。从而这使得他们更适用于进行图像重构和操作。由于轮廓捕捉的是形状和目标的边界,因此我们希望能够操纵它们(如平移、缩放、复制、粘贴),并使得相关像素得以适应相应的变化,从而使得编辑后的图像能够保持原始图像的结构和纹理细节,正如艺术家那样,仅用简单的草图作,就能完成复杂的画作。这一开放性问题起源于David Marr的开创性工作,以较高的保真度从稀疏轮廓中重构对图像进行重构是非常有趣的,这是编辑和处理的基础。
图2.从稀疏轮廓中进行图像重构(图a中用红色标出)通过以下方式获得:(b)输入均匀扩散在每个边缘位置两侧的RGB采样值;(c)Pin2pix将二进制边缘映射作为输入;使用存储在(a)中红色位置的梯度信息生成图像(f);源图像如图3所示,(d-e)密集轮廓以及相应的重构可以通过通过均匀扩散获得重构。与(b-c)和(e)相比,我们的方法提供了更优越的重构,并且提供了更密集的输入。
二进制轮廓图通常不足以保留图像的保真度(如图2-c)。因此,局部图像信息(如梯度或颜色)已经与轮廓位置相结合,并且已经在基于扩散方法的文献中被广泛研究。
然而,这种基于扩散的方法不适用于图像编辑,因为它们不能合成纹理和缺失性内容。高质量的重构往往需要密集的轮廓,这刚好违背了原先简洁和易操作的初衷。当轮廓稀疏时,重构失去重要的图像细节,如纹理(见图2中a-b)。
我们的模型使用两个“U-Nets”的级联从一个稀疏N—信道的特征映射中(通常N = 3或N = 6)进行图像重构:(a)低频网络(LFN)用一个L1像素损失进行训练,从而恢复图像的整体结构和颜色;(b)以LFN输出和输入特征映射为条件的高频网络(HFN),产生纹理和细节重构; HFN是经像素损失和对抗式损失的组合进行训练的。(c)我们的条件性鉴别器,它包含扩大的卷积和图像块之间的聚合,以更好地捕捉高频率。“Concat”是指沿深度轴连接相同空间分辨率的信道。
在本文中,我们提出了一种基于深度生成式模型的新方法,从而解决了高保真与高稀疏之间的矛盾。即使在没有提供输入信息的大区域,我们的模型也只是从稀疏的轮廓表示中适当地学习对其进行处理,而不是强制用轮廓对纹理、细节和精细结构进行建模(见图1中a-c)。具体来讲,我们假设轮廓和纹理之间的相关性被很好地封装在一类图像当中,例如面孔、狗和鸟。例如,已知一个轮廓是人脸轮廓,那么我们的模型可以基于一组面部图像训练统计的相关性来填充毛发和面部表情细节。为此,我们开发了两个网络的级联,将整个任务分解为两个更容易处理的问题。第一个网络重构整个图像的结构和颜色,而第二个网络恢复纹理和细节。
源图像(a)是对(b)中标记为红色的相同边缘像素中的不同稀疏表示进行重构得到的,使用的方法如下:(c)基于扩散的解决方案对在轮廓两侧采样的RGB值进行传播;(d)仅使用二进制轮廓作为输入的Pix2pix;(e)使用稀疏梯度的LFN输出和(f)我们的最终HFN输出。
大量的实验表明,利用我们的模型,高保真图像重构可以从存储在轮廓像素中的一小部分信息中获得,对于512×512的图像来说,这一部分信息可以缩小至至3%(参见图1中a-c)。这基本上使轮廓成为图像编辑的强大工具。除此之外,我们的研究结果表明,我们的模型可以对关于训练数据的语义信息进行编码。因此,轮廓域中的局部编辑被转换为像素空间中的相干变化(例如,拖动人的眉毛会导致连接眉毛和鼻子的面部线条发生变化,参见图1中d-e)。我们展示各种图像编辑的例子,如创建漫画、改变面部表情或生成头发和毛发纹理。
我们提出了一个深度网络模型,它可以从稀疏的轮廓表示中实现高质量的图像重构和有效语义感知编辑。由于在我们的模型中含有稀疏性和编码于其中的高级信息,因此这种表示方法能够很容易地进行大量连贯编辑的操作。这是对现有研究成果的重大改进。
局限性: (a)在进行面部训练时,使用我们的模型重构小狗的图像(b)相反显示(c)与极端编辑的效果相同,由于轮廓限制导致结果没有语义含义。
我们的模型存在局限性,因为特定域的纹理和细节不能由一个域很好地转换到另一个域中。例如,将一个基于小狗图像训练的模型应用于人脸,将导致犬样外观(图10-b),反之亦然(图10-a)。在这两种情况下,输入轮廓对重构提供了强有力的约束,但我们的模型主要是依靠训练数据合成纹理。在某些情况下(如极端编辑操作)可以防止在语义上有意义的重构(图10-c)。
原文链接:https://arxiv.org/pdf/1712.08232v1.pdf