[ICCV-2019] Controllable Artistic Text Style Transfer via Shape-Matching GAN 基于形状匹配生成对抗网络的可控艺术文本风格迁移
论文链接:https://arxiv.org/abs/1905.01354v1
代码链接:https://github.com/VITA-Group/ShapeMatchingGAN
1. 概述
1.1 背景
-
艺术文本风格迁移是指将风格从源图像迁移到目标文本,目的是将文本以参考图像所指定的风格呈现出来。根据参考图像的不同,文本可以通过类比现有的精心设计的文本效果,或者通过模仿更一般的自由风格图像的视觉特征来进行风格化。
-
以一般的风格图像作为参考,由于文本与自然图像有明显的区别,并且比自然图像更有结构化,因此在文本的风格化过程中应更多地注意其笔画形状。同时,需要保持字形的易读性,以便风格化的文本仍然是可识别的。这种微妙的平衡是主观的,很难自动达到。
1.2 目标
本文的目标是实时调整文字在形状变形方面的风格程度。它允许用户浏览不同形式的渲染文本,并选择最想要的一种。以火焰字为例,要使火焰在文字上燃烧起来,文字边缘势必要进行形状的调整,但过多的调整又会损害文字的可读性。所以,需要在文字的艺术性和可识别性上进行折衷。
1.3 挑战
要想实现艺术文本风格快速且可控地迁移,存在两方面的挑战:
-
不存在包含源文本图像和不同程度风格化的相应结果的大规模成对训练集。通常,对于某种风格,只有一个参考图像可用;
-
如何训练一个网络来快速处理不同的变形程度。
2. 方法
本文提出了Shape-Matching GAN。Shape-Matching GAN 的首要目的是学会文字的变形,不同于纹理尺度等可以用超参描述的特征,文字变形难以定义与建模,同时也没有对应的数据集支撑。为了解决这个问题,本文提出了一种双向形状匹配策略,通过向后和向前传输来建立源风格和目标字形之间的形状映射。整体分为两个阶段:
-
反向结构迁移:提取风格图像的结构,反向将文字的形状风格迁移到结构图上,获得简化的结构图
-
正向风格迁移:正向学习上述过程的逆过程,即学习将简化的结构映射到原始结构再进一步映射回风格图像
这样网络就学会了为文字边缘增添风格图像的形状特征和渲染纹理。
2.1 反向结构迁移
反向结构迁移的目的是生成风格图像的结构图与简化结构图,与风格图像构成成对的训练集。
针对第一个挑战,风格图像只有一张的问题,本文采用随机裁剪的方式,将风格图像、结构图和简化结构图,裁剪成大量的子图像,从而获得足够的训练数据。
为了将文字的形状特征迁移到风格图像的结构图上,本文提出了Sketch Module。它包含一个模糊模块和一个去模糊模块。
模糊模块使用高斯滤波模糊图像边缘,将文字图和结构图映射到同一个模糊领域,然后通过在文字图上训练去模糊模块恢复文字简洁的边缘,让网络在测试时能简化结构图的边缘。
2.2 正向风格迁移
正向结构迁移包括结构迁移和纹理迁移。
在结构迁移任务中,训练网络 G G