华为、中大、谷歌合作最新研究黑白漫画场景可批量上色_主要那些机构在进行图像上色研究-CSDN博客

本文链接：https://blog.csdn.net/hahabeibei123456789/article/details/103421596

给定一个场景草图，我们的系统将按照用户指定的基于语言的指令为前景对象实例和背景逐渐着色，从而自动生成彩色卡通图像。

作者信息

介绍

基于自然的，非接触式有趣的，基于语言的输入已被证明有效地完成了从图像生成到儿童扫盲教育的各种任务。本文首次提出了一种基于语义理解的基于语言的场景草图交互式着色系统。所提出的系统建立在深度神经网络的基础上，该深度神经网络在场景草图和带有文字描述的卡通风格彩色图像的大规模存储库上训练。给定一个场景草图，我们的系统允许用户通过基于语言的指令以交互式方式对特定的前景对象实例进行定位和着色，从而逐步满足各种着色要求。我们通过全面的实验结果（包括替代研究，与最新方法的比较以及一般用户研究）证明了我们方法的有效性。鉴于基于语言的输入的独特特征，我们设想将界面与基于传统涂抹界面的界面相结合，以实现实用的多峰着色系统，从而使各种应用受益。

作者的系统自动响应用户指定的着色指令，并在输入场景草图中对目标对象进行着色。我们的系统允许用户指定的指令在一定范围内的表达结构变化和语言语法错误。例如，给定不同的表达方式但具有相同的意图，例如“道路为黑色”，“用黑色为道路着色”和“黑色道路”，作者的系统得出相同的着色结果（如上图）。我们的系统还能够通过一条指令处理同一类别的一个或多个对象实例。例如，给定图中的“所有树木均为绿色”的指令，我们的系统将所有树木实例着色为绿色。我们在实验结果表明，所提出的着色系统可实现视觉上令人愉悦的结果，这一点已得到多个用户研究的证实。单个组件的影响已通过一系列消融研究得到验证。我们强调以下主要贡献：

第一个基于语言的用户可自定义场景素描着色系统。
第一种架构用于场景草图的基于文本的实例级分割。
三个大型数据集，用于基于文本的实例分割，前景着色和背景着色

相关工作

基于语言的图像分割

由于语义图像分割和自然语言处理的发展，由自然语言表达指导的图像分割最近引起了越来越多的关注。

过去图像分割技术可以分为以下几种，

给定自然语言描述作为查询的情况下直接输出单个目标对象的二进制分割掩码。
通过将多模式特征融合与循环多模式交互（RMI）模型结合使用，该模型对文本，视觉和空间信息之间的顺序交互进行编码。
一种改进网络，通过将后期融合的多峰特征反馈回带有卷积LSTM的图像编码器的低层，以结合多尺度语义，以改善分割结果。
提取关键词将有助于抑制查询中的噪音并突出显示所需的对象，遵循RMI的基本框架，提出了一个关键字感知网络，该网络包含一个查询注意模型和一个关键字感知视觉上下文模型，用于引用图像分割。
一些针对视觉接地的研究，旨在通过边界框定位图像中最相关的对象或区域。

作者的实例匹配模型与上述方法紧密相关。但是，作者的匹配模型将自然语言表达和场景草图作为输入，而不是自然图像。匹配模型旨在推断一个或多个感兴趣的对象实例的分割掩码，包括边界框，二进制实例掩码和类标签的信息。因此匹配模型的输出与参考图像分割或视觉接地的现有作品不同，后者参考了单个目标对象实例的二进制分割或边界框。

用户自定义图像着色

该任务根据用户输入从灰度图像或草图图像生成彩色图像。

当前存在几种类型的用户输入，包括用户绘制的涂鸦，用户选择的颜色参考图像，用户选择的调色板以及用户指定的语言表达。通常使用基于涂抹的界面在灰度或素描图像上指定所需的颜色。

有一些开源的交互式应用程序可用于基于涂抹的线条绘制着色，例如PaintsChainer和Style2paints等。如前所述，基于涂抹和基于语言的界面具有其自身的优势，前者是直接的并且支持精确控制，而后者则更自然和易于访问。

他们的解决方案着重于调色板的生成，以反映输入文本的语义。

作者的系统最接近LBIE，因为它是第一个基于自然语言的场景草图着色框架。由于缺少成对的场景草图和彩色图像数据，直接将LBIE用于作者的问题是不可行的。通过将场景草图分解为前景对象实例和背景区域来解决此难题，并通过在易于从Internet或现有数据集中收集的成对对象级草图和彩色图像数据上训练深层网络来解决此问题。尽管LBIE可以直接用于前景对象实例的着色和背景的着色，但是实验表明，它不如我们的网络有效。还有其他一些研究语言表达和颜色之间的相互推理论文。这些论文可能会与我们的系统结合使用，以实现更精确的色彩控制。

系统预览

系统将基于文本的着色指令作为输入，这样的指令可以通过语音或打字获得。基于语音的界面更自然，但可能会出现语音到文本错误。将我们的系统与直接语音输入相集成将是未来的有趣工作。

我们的系统使用实例匹配模型，前景着色模型和背景着色模型这三个模型，为给定的输入场景草图和基于文本的着色指令提供了两种模式的交互式着色。不必在背景区域之前对前景对象进行着色。

如上图所示，给定输入场景草图和自然语言表达以进行颜色指定，我们的系统提供了两种着色模式：前景和背景。

之所以采用两种模式，是因为前景物体（例如汽车，树木，太阳）和背景区域（例如天空，地面）具有非常不同的图像特征，因此可以用不同的方式更好地处理。在我们的系统中，我们将所有草绘对象分类为前景，将草绘对象之间的区域分类为背景。假设用户不使用单一语言表达为前景对象和背景区域着色，则可以通过检查给定指令中的类别标签（例如，“天空”表示背景标签）来轻松确定前景或背景模式。

前景模式，首先使用称为实例匹配模型的网络来定位由自然语言指令指示的感兴趣的前景对象实例（更准确地说，预测目标对象实例的实例级掩码）。接下来，专门为前景对象设计的称为前景着色模型节）的新网络体系结构用于为这些实例着色。

背景模式，专门为背景素材设计的第三种网络架构称为背景着色模型（第5.2节），用于同时进行分段和着色。我们没有为背景使用特定的实例匹配模型，因为背景区域的着色要求不比前景对象实例的着色要求复杂。通过这种分而治之和渐进策略，无需在带有完整批注文本指令的大规模场景级草图和图像对上进行训练，即可对复杂场景草图进行着色。

即时配对

实例匹配模型将场景草图图像和基于语言的指令（短语或句子）作为输入，并输出目标对象实例的像素级蒙版，包括边界框，类标签，和二进制实例掩码。这个问题具有挑战性，几乎没有直接研究它的先前工作。我们将这个问题称为实例分割，并使用集成了一组复杂网络的新体系结构来解决该问题。我们提出的实例匹配架构如图所示：

第4节中的实例匹配模型的网络体系结构。以端到端的方式训练该网络以获得二进制掩码（如（b）所示）。在推断阶段，将生成的二进制掩码与Mask R CNN生成的实例分割结果融合[He et al。 2017]获得最终结果

，主要包括两个阶段：草图图像特征提取和文本图像融合。前者提取草图的图像特征，后者将它们与自然语言描述一起作为输入，并生成目标对象的二进制蒙版（图（b））。我们使用DeepLab v2网络，它是草图图像特征提取器，因为它是对场景草图进行语义分割的最有效网络。RMI模型，最初提出用于参考图像分割的被用于文本图像融合阶段。通过融合二进制掩码和Mask R-CNN生成的结果，可以获得最终的实例级分割信息。专为素描数据量身定制的忽视背景的训练策略，仅惩罚笔划像素（而不是素描图像中的每个像素）的交叉熵损失，用于训练所有网络。

在本文的其余部分中，我们将这种由DeepLab-v2和RMI支持的体系结构称为DeepLabv2-RMI，而将其作为背景技术加以忽略。方法，在草图特征提取阶段，给定尺寸为H×W的图像，采用基于ResNet-101的DeepLab-v2模型提取尺寸为H′×W′×1000的草图图像特征，其中H′= H / 8和W′ = W / 8。然后将草图图像特征与空间坐标连接起来，以生成H'×W'×（1000 + 8）张量，确定8个空间坐标维度，其中归一化的水平和垂直位置分别使用3个维度，其余的2个维度分别是1 / W'和1 / H'。2017a]。

在文本图像融合阶段，采用两层LSTM体系结构进行跨域特征之间的多峰交互。纯文本LSTM对语言指令进行编码，该语言指令由映射嵌入中的多个单词{wt} Tt = 1 {et} Tt = 1（et∈Re）组成，并使用隐藏表示{ht} Tt = 1（ht∈Rw）为每个单词作为文本特征。在每个时间步t，将四种交叉域特征（文本嵌入等，文本语义ht，提取的图像特征v和空间信息∈Rs）串联起来，作为卷积多峰LSTM（mLSTM）的联合输入。在串联之前，将et和ht最初平铺为H'×W'以匹配尺寸。将mLSTM应用于级联特征图中的所有空间位置，并输出隐藏状态{h't} Tt = 1（h't∈Rm）。

通过投影和上采样层，从h'T生成二进制掩码R∈RW×H。用于二进制掩码生成的网络以端到端的方式进行训练。在推断阶段，将生成的二进制掩码与Mask R-CNN的输出融合，以生成最终实例分割结果。具体地，将来自掩模R-CNN的具有被生成的二进制掩模覆盖的超过50％的掩模像素的分割实例用作匹配实例，即最终分割结果。培训损失。给定一个草图M∈RW×H的二进制绘图蒙版（其中Mij = 1表示位置（i，j）处的黑色前景像素，Mij = 0表示白色背景像素）和地面真实度二进制分割蒙版Rˆ，损失函数被公式化为由忽略背景训练策略赋予的常规交叉熵：

色彩

虽然现有方法可以直接用于对分割后的对象草图或背景区域着色，

如上图所示。它具有所述的伪影。LBIE有两个主要限制。

首先，其图像编码器和解码器的体系结构不适用于草图数据或背景区域。

其次，它的图像-文本融合模型效果不佳，结果质量较差。

例如，给出指令“汽车是带有深灰色窗口的红色”，LBIE无法分割汽车窗口并用红色对汽车窗口进行着色，

如上图所示。为了实现更好的着色，我们设计了专门针对前景和背景着色任务的前景和背景区域的特征。

前景着色

如图所示，

我们用于前景对象实例着色的网络实质上是一个生成对抗网络（GAN），由生成器G和鉴别器D组成。与传统生成器不同，例如pix2pix，由于生成的着色结果应受文本信息的约束，我们的生成器G仅作为单模态视觉图像数据的输入，因此需要对文本描述和视觉信息之间的交互进行建模。

背景着色

如图所示：

提出的用于背景着色的网络是一个以前景图像为条件的条件GAN（cGAN）网络。它将填充输入前景图像的背景区域，并生成768×768高分辨率彩色图像。生成器G由着色分支和分段分支组成。鉴别器D附着在着色分支上，其设计遵循cGAN中鉴别器的一般设计，并略有改动。整个网络以端到端的方式训练。

数据集

我们主要在SketchyScene数据集上构建了用于训练和测试网络的数据集，该数据集为7k以上的场景草图模板提供了实例和语义分割基础。分为三个数据集。

实例匹配数据
前景实例着色的数据
背景色数据

即时匹配实验

消融研究

在三个主要方面验证了我们提出的实例匹配模型的设计选择：特征提取，文本图像融合以及有/无背景训练的效果。

结果

定量结果遵循模板R-CNN和RMI，我们使用模板IoU和模板AP，AP50和AP75作为度量标准，以测量每个比较模型的分割精度。我们在表2中总结了比较结果，在其中我们可以看到DeepLabv2 RMI架构具有忽略的后台训练策略，可以实现最佳的整体性能。

MATCHING数据集中典型草图上替代方法的代表性结果如下:

用于背景着色的骨干比较：MRU与Pix2Pixvs，ResNet：

所提出的体系结构的分割分支的优势以及背景色的w / o-FG训练策略：

为了获得更好的可视化效果，我们用红色突出显示针对同一目标的不同表达式，并用蓝色突出显示不同的颜色目标：

结论

论文或源码数据集下载地址：关注“图像算法”公众号回复“草图”，作者首先研究前景对象实例着色网络（即FG-MRU-RMI）和背景着色网络（即BG-RES-RMI-SEG）的替代方案。之后描述了一项用户研究，旨在调查所提出的着色网络的真实性和有效性。最后，我们研究了所提出系统的整体性能，并研究了其概括性和可用性。