【读点论文】SLOGAN Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text，用gan批量定制笔迹_slogan: handwriting style synthesis for arbitrary--CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/136356569

SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text

Abstract

鲁棒文本识别器的训练迫切需要大量的标记数据。然而，收集不同风格的手写数据，以及大量的词汇，是相当昂贵的。虽然数据合成是一种很有前景的缓解数据饥饿的方法，但手写合成的两个关键问题，即风格表示和内容嵌入，仍然没有得到解决。为此，我们提出了一种基于生成对抗网络(GAN)的新方法，该方法可以为任意长度和词汇外的文本合成参数化和可控的手写样式，称为SLOGAN。具体来说，我们提出了一个风格库来参数化特定的手写风格作为潜在向量，这些潜在向量作为风格先验输入到生成器中以获得相应的手写风格。样式库的训练只需要识别源图像的作者，而不需要属性注释。此外，我们通过提供易于获取的印刷样式图像来嵌入文本内容，从而通过改变输入的印刷图像可以灵活地实现内容的多样性。最后，生成器由双重鉴别符引导，以处理作为分隔字符和一系列草书连接出现的手写特征。我们的方法可以合成训练词汇表中没有的单词，并以各种新的形式出现。大量实验表明，该方法可以合成出风格多样性强、词汇量丰富的高质量文本图像，从而增强了识别器的鲁棒性。
论文地址：[2202.11456] SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text (arxiv.org)
IEEE Transactions on Neural Networks and Learning Systems
所谓合成法，是通过已有的单词或者字符进行随机组合，然后通过模糊、倾斜、扭曲、仿射变换和加背景等方法，生成接近真实场景中的图片。由于单词和已有的字符已知，所以省去了标注的过程。

INTRODUCTION

文字是人类一项了不起的成就，标志着史前时代向当代文字历史的过渡。今天，书写被认为是人类独特的、必不可少的能力。即使在今天的数字时代，手写文本仍然有广泛的应用，包括即兴记笔记、数学运算、商业交易和邮政邮件标签。由于手写文字的普遍存在，离线手写文本识别是计算机视觉领域的一个重要研究方向。
最近的数据驱动方法显著提高了识别性能。然而，识别和处理大量不同的个人笔迹风格仍然是一个巨大的挑战。如下图 (a)所示，不同的人所写的一个单词(例如“the”)的笔迹风格可能会有很大的不同。实际上，每次由同一个人书写时，单词的书写风格都会发生明显的变化，如下图 (b)所示。这表明笔迹风格的数量几乎是无限的。同时，现有的训练数据不足，不能代表所有可能的写作风格。
- 样本来自广泛使用的IAM数据集[The IAM-database: An English sentence database for offline handwriting recognition]。识别不同个人笔迹风格的文本是一项挑战，因为(a)不同人写的一个单词(例如，“the”)的笔迹风格可能有很大的不同，(b)同一个人每次书写时，单词的风格都会发生明显的变化。
为了进一步说明手写风格分布，我们提供了流行的 IAM 训练集中的风格，通过我们提出的方法进行参数化，其中风格向量维数设置为 3 以便可视化。如下图所示，宽的空白表示缺少手写样式。同时，我们在风格和频率分布方面观察到显著的偏差。例如，数据集包含3,811个来自Writer #0的样本，但只有10个来自Writer #6的样本。
- 用我们的方法发现笔迹风格分布不均。笔迹样式来自流行的IAM训练集。我们的方法可以将样式参数化为向量。样式向量的维度被设置为3，这样每个样式都可以在三维坐标系中可视化。每个点的颜色(以及大小)表示特定样式在数据集中出现的频率。在风格和频率分布方面都存在明显的偏差。大片的空白空间表明缺乏风格。
处理样式缺失的一个策略是几何增强，包括特征级增强和图像级增强。然而，扩充是在现有样本的基础上进行的，这意味着不能创建词汇外(OOV)样本。另一个解决方案是收集和注释更多专门用于训练的图像。然而，这种方法既耗时又费力。
自动生成手写文本图像可以通过从给定的单词开始，生成手写文本的相应图像，从而逆转标注过程以节省成本。先前的研究利用在线手写数据进行训练。一个训练良好的网络可以通过逐步预测数据点来生成具有长期结构的复杂序列。最近，非循环生成方法已经被证明可以根据给定的文本字符串直接生成合成的手写图像。他们还展示了模仿离线手写特征(生动的笔画、纹理、纸张背景等)的优势。
尽管这些令人印象深刻的努力，手写数据合成仍然具有挑战性和未解决的问题。例如，我们发现随机噪声潜在向量z ~ N (0;1)，在现有的生成对抗网络(GANs)中被广泛使用，但不足以建模特定的笔迹风格。此外，以往的研究通过复杂的模块嵌入内容，包括循环嵌入、字符级和字符串级编码器、一系列卷积滤波器和滤波器映射，这限制了内容输入的灵活性和实用性。例如，相邻字符间隔不容易调整。在训练阶段也不可能生成超过最大长度的文本字符串。
为此，我们建议解决上述两个关键问题:手写体的风格表现和文本的内容嵌入。1)我们提出了一个样式库来存储参数化的手写样式向量，这些向量由生成器获取，以引导生成的图像走向特定的样式。我们的模型是可微的，因此，样式向量可以通过与生成器的联合训练来更新。然后，通过控制潜在的样式参数来合成新的样式。2)我们的方法简化了内容嵌入设计，只提供印刷风格的图像作为输入，获取成本低，可以在训练时在线渲染。训练后，只需改变打印字符及其在输入图像上的位置，就可以生成具有多种内容的手写文本图像，包括各种相邻字符间隔、弯曲文本和任意长度的文本。
虽然将手写合成建模作为一种域转移任务(从印刷风格到手写风格)有很多优点，但现有的基于gan的方法在生成文本字符串图像方面不够鲁棒，因为一个文本字符串图像包含多个对象序列。例如，已有研究报道生成的图像包含不清晰的字符和意外的伪影，这表明缺乏监督和生成器的混乱，如下图所示。
- 使用vanilla域转移gan生成文本图像的失败案例。上图:Luo等人报道，CycleGAN在去除场景文本图像的噪声背景任务中，无法保留每个字符的笔画;下图:Kang等观察到即使是先进的领域转移模型“FUNIT”也不能生成相对可用的训练样本。不清楚的字符和意外的工件表明缺乏监督和生成器的混乱。
由于我们的目标是提出一种像人类一样写作的方法，我们应该回顾人类感知和学习系统的特征。认知科学文献揭示，自下而上和自上而下两种相互作用的加工机制相辅相成，形成丰富的视觉表征，创造生动的图像。前者侧重于局部元素(整体的一部分)，而后者则从更全局的角度出发，如周围的环境和先验知识。受这一发现的启发，我们设计了双重鉴别器，在两个层次上引导生成器，即分隔字符和它们之间的草书连接。所提出方法的学习方案如下图所示。通过这种方式，我们的方法可以基于GAN (SLOGAN)合成任意长度和非词汇文本的先前参数化和现在可控制的手写样式。
- 提出了模仿特定笔迹风格的学习方案。样式库将编写器ID嵌入到一个潜在向量中，生成器利用该向量将打印样式转换为相应的手写样式。在双鉴别器的监督下，对样式库和生成器进行联合优化。
综上所述，本研究的贡献如下:
- 我们提出将手写风格参数化作为潜在向量，作为风格先验来指导生成器实现特定的手写风格。通过操作潜在向量的元素，可以创建数据集中不存在的新手写样式。样式参数化的训练只需要源图像的编写器id
- 我们建议使用印刷样式的图像嵌入文本内容。经过训练后，该方法可以通过仅改变打印样式文本图像上的文本字符串来生成任意长度的词汇外单词和句子。此外，还可以通过引入字符位置排列的差异来实现空间多样性。
- 我们提出了双鉴别器分别在分隔字符级别和草书连接级别对生成器进行监督，可以有效地提高生成图像的质量。
- 大量实验表明，该方法可以生成逼真的手写文本图像，进一步丰富了现有训练样本的多样性，提高了识别器的鲁棒性和性能。

RELATED WORK

A. Handwritten Text Image Synthesis

过去十年见证了深度学习的重大进展。递归神经网络(Recurrent Neural Networks, RNNs)已被广泛用于建模具有远程结构的复杂序列。该方法利用在线手写数据进行训练，并以循序渐进的方式循环预测数据点。然而，在线序列不能表示某些离线手写特征，如笔画宽度、纹理和纸张背景。
图像和纹理合成是具有挑战性的任务。随着 gan 技术的突破，直接生成手写文本图像已经成为一个有趣的话题。非循环生成方法可以根据给定的文本字符串生成手写文本图像。通过这种方法生成的图像非常逼真，笔触、纹理和纸张背景都很生动。然而，笔迹合成的两个关键问题，即风格表示和内容嵌入，仍然是一个挑战。
- 1. Alonso等人和Fogel等人使用随机噪声潜在向量简单地遵循了流行gan的设置。然而，这种方法可能不能充分代表笔迹风格的差异，这进一步限制了风格的多样性。我们认为潜在向量可以更具体和有效地表示样式。这一观点得到了几个事实的有力支持。例如，Lai等人提取了真实签名的潜在神经元参数，以消除对熟练伪造的需要。此外，对于自然场景对象，可以通过对 gan 的潜在空间进行解释来编辑生成的图像。这启发我们寻找一种方法来参数化手写样式，并引入更多的可控参数来生成各种样式。
- 2)以往的研究提出了复杂的模块来嵌入内容，如循环嵌入、字符级和字符串级编码器、一系列卷积滤波器和滤波器映射。然而，这些模块的应用有限，因为它们不够灵活，无法嵌入各种内容。例如，在训练阶段不可能嵌入超过最大长度的文本字符串。卷积滤波器系列和滤波器映射不能灵活调整相邻字符间隔来实现各种字符排列。因此，我们提供打印样式图像上的文本内容，并将其提供给生成器。通过这种方式，我们可以通过更改字符串和重新排列输入图像上的字符来生成各种内容。

B. Handwritten Text Image Augmentation

提高训练数据多样性的另一种有希望的方法是文本图像增强，通常通过几何增强来实现。Wigington等在规则网格上使用随机扰动对现有文本图像进行增强。Bhunia等以可伸缩的方式对提取的特征进行弹性扭曲。Luo等提出了一种可学习的增强方法，以获得更有效、更具体的样本。这些方法取得了重大进展，大大提高了识别器的性能。
但是，在训练数据中不存在的图像，例如包含超出词汇表的单词的图像，不能通过数据增强来创建。因此，增广受现有数据集的限制。所提出的数据合成方法可以作为数据增强的补充，进一步提高识别的鲁棒性。

C. Font Style Transfer

字体样式(文本效果)转移是一般图像样式转移的一个子主题。近年来的著作对印刷单字的文字效果进行了深入的研究，并取得了很大的成功。然而，这些方法不能直接用于手写合成。首先，几乎所有的字体样式转移方法都需要费力的注释来进行监督，例如成对的训练样本，它由输入图像和相应的像素级对齐的真实图像组成。同时，为了实现属性的可编辑，还需要对属性进行额外的标注。其次，这些方法是为一些特定的字体效果而设计的。字体样式的数量相对有限。例如，代表性基准TE141K仅包含152种字体效果，而手写数据集IAM则收集了657名书写者。第三，以前的研究只关注单个字符的影响，然而，手写文本图像通常包含多个字符。最后，这些方法是针对设计行业提出的，而不是针对文本识别的数据合成。
与上述字体风格迁移方法不同，本文提出的方法可以生成包含长文本字符串的图像，而不仅仅是单个字符。我们的动机是丰富数据多样性和提高文本识别器的鲁棒性。在这方面，以往的研究只证明了视觉效果。

METHODOLOGY

在本节中，我们首先描述通过模仿特定样式来参数化手写样式的建议方法。这使得控制参数来生成各种笔迹样本成为可能。然后，我们提出了双鉴别器的设计，这对我们的方法的成功至关重要。
- 我们在训练阶段的整体框架。样式库存储代表笔迹样式的潜在向量。它与生成器共同更新。生成器由双标识符监督，它们分别指导字符级和草书连接级的风格转换。发生器和鉴别器交替训练。
最后，我们举例说明了生成器对不同风格和内容的推理。我们提供了如下注释表，方便阅读和参考。
- 缩写和符号。

A. Handwriting Style Parameterization by Imitation

如上图所示，我们的框架由一个样式库、一个生成器和两个鉴别器组成。生成器接受样式库提供的先验样式，并将打印样式转换为相应的手写样式。具体来说，样式库是一个简单的查找表，它将 n 种手写样式存储为潜在向量 $z_{all}\in \R^{d×n}$ ，其中d是潜在向量的维数。给定一个作者ID，样式库返回相应的潜在向量
- $z = St y l e B ank (I D)$
- 其中潜在向量 z 作为引导生成器实现目标手写样式的先验。样式库在写入器id的监督下随机初始化并与生成器联合更新。生成器G是一个编码器-解码器架构，它将打印样式图像 $I_{print}$ 作为输入并生成图像
- $I_{fake}=G(I_{print},z)$
- 这里， $I_{fake}$ 包含与 $I_{print}$ 相同的内容，对应于 z 的手写风格。我们按照场景文本数据合成的方法，在白色背景上渲染打印风格的文本，得到 $I_{print}$ ，可以在训练时方便地在线渲染。
- 在获得生成的图像 $I_{fake}$ 后，我们设计了两个鉴别器分别在分隔字符级别和草书连接级别进行监督。该设计对于手写体文本图像的图象到图象传输的成功至关重要。这两种鉴别器介绍如下。
1)分离字符鉴别器(对抗训练和字符内容监督):虽然先前的研究取得了令人满意的结果，但生成的图像中包含不清晰的字符和意想不到的伪像，这表明生成器仍然存在拟合不足的问题。我们发现图像层面的识别对于训练是低效的。因此，我们设计了一个鉴别器 $D_{char}$ 来监督字符级别的生成器。为了解决缺少字符级边界框注释的问题，我们利用了注意力机制，该机制广泛用于序列到序列映射。它只需要一个文本字符串标签作为弱监督来定位字符。在获得角色位置后，我们可以进一步对每个角色进行对抗性训练和内容(角色类别)监督。具体来说， $D_{char}$ 由两个头组成，分别称为 $D_{char;adv}$ 和 $D_{char;content}$ 。 $D_{char;content}$ 内容头利用注意机制来定位字符。 $D_{char;adv}$ 头在每个时间步共享隐藏状态st来进行对抗性训练。具体如下。虽然注意机制不是我们的主要贡献，但我们包括了它的细节，以方便阅读和参考。
首先， $D_{char;content}$ 通过最小化字符分类损失来定位每个字符
- $\min_{D_{char_content}} L_{char,content}=-\sum^{|year|}_{t=1}logp(Y_{real,t}|I_{real})$
- 其中 $I_{real}$ 表示真实手写图像， $Y_{real}$ 表示其对应的文本内容。 $p(Y_{real,t}|I_{real})$ 是 $I_{real}$ 的第 t 个基真特征的预测条件概率。多个字符类别在第 t 步的概率分布由
- $y_t=softmax(W_ys_t)$
- $s_t$ 是第t个隐藏态。正如之前的研究所建议的那样，它由 RNN 更新以对序列内的上下文关系建模。我们采用门控循环单元(GRU)，得到它为
- $s_t=GRU(s_{t-1},(Y_{real,t-1},feat_t))$
- 其中， $feat_t$ 表示位置(i;j) 处特征映射h的加权和
- $feat_t=\sum_i\sum_j(\alpha_{t,ij}h_{ij})$
- 其中 h 是从输入图像 I 中提取的特征映射为
- $h = e n co d e (I)$
- 向量 $α_t$ 为关注权向量，更新如下:
- $\alpha_{t,ij}=\frac{exp(e_{t,ij})}{\sum_{i,j}(exp(e_{t,ij}))}\\ e_{t,ij}=W_eTanh(W_ss_{t-1}+W_hh_{ij})$
- 其中Wy, We, Ws和Wh是可训练的参数。
随后，分离字符鉴别器能够定位和提取单个字符，用于进一步的对抗训练。我们在注意力解码器的顶部设计了另一个线性层头，在第 t 步有一个单位输出
- $D_{char,adv}(I,t)=W_{adv}s_t$
- 其中 $W_{adv}$ 是一个可训练的参数。这个头部共享从分类任务中学习到的相同的注意mask。生成图像 $I_{fake}$ 上第t个字符的对抗性损失公式如下:
- 其中超参数λ设为0.1。
除了估计风格迁移效应外，另一个目标是保留文本内容。因此，鉴别器也监督生成图像的内容。对于文本内容， $D_{char;content}$ 从集合 ${I_{real},Y_{real}\}$ 中学习;控制和引导生成器在设定的 ${I_{feak},Y_{print}\}$ 上。注意， $Y_{real}$ 和 $Y_{print}$ 可以不同。优化涉及最小化条件概率的负对数似然
- $\min_GL_{char,content}=-\sum_{t=1}^{|Y_{print}|}logp(Y_{print,t}|I_{fake})$
2)草书连接鉴别器(对抗训练和手写风格监督):与印刷体图像相比，手写风格图像的一个显著特征是相邻字符之间的草书连接。因此，需要一个更全局的标识符(与分隔字符的本地标识符相反)来对相邻字符之间的关系进行建模。受 PatchGAN 的启发，我们使用具有重叠接受域的特征映射的分割补丁来扩展聚焦区域以覆盖相邻字符。鉴别器(表示为 $D_{join}$ ，由两个头组成，称为 $D_{join;adv}$ 和 $D_{join;ID})$ 在这些补丁上执行对抗性训练和笔迹风格监督。草书连接级别的对抗损失公式如下:
- 特征映射补丁包含相邻字符和它们之间的草书连接，以信息方式指示特定的手写风格。因此，这个鉴别器也估计模仿特定的笔迹风格。 $D_{join;ID}$ 从集合 ${I_{real};ID\}$ 中学习，并通过最小化条件概率的负对数似然来引导样式库和生成器在集合 ${I_{real};ID\}$ 上，如下所示:
- 请注意，整个框架是可微的，因此，它可以反向传播用于更新查找表(即样式库)中的样式潜在向量 z 的梯度。
3)自编码器:我们观察到基于梯度下降优化的 gan 可能不收敛，这表明了生成器的不稳定性。为此，我们设置了一个自动编码器限制，通过最小化相同的手写风格和内容的相同映射
- $L_{idt}=[G(I_{real,z})-I_{real}]^2$
- 我们发现这种额外的设计对训练的成功和稳定有很大的贡献，我们在实验一节中对此进行了演示。
4)训练方案:本文方法的训练方案如算法1所示。生成器和鉴别器交替更新以实现对抗性训练。我们通过联合训练生成器和样式库来参数化手写样式。

B. Inference of Generator

训练后，可以通过操纵潜在向量 $z\in\R^ d$ 的元素来生成新的笔迹样式，即 $z = \{z_1;...;z_k;...;z_d\}$ 。为了创建一个随机的书写风格，我们在范围内调整每个 $z_k$
- $min(z_{all,k}),max(z_{all,k})]$
- 其中 $z_{all}\in\R^{d×n}$ 存储训练集中n个写入器 id 中嵌入的所有z。zk范围的限制避免了失败的生成，因为受限的 zk 落入了生成器所见过的模式。
此外，输入的打印样式图像作为文本内容条件，可以改变以达到不同的效果，包括不同的位置排列(例如生成曲线文本)和任意长度的文本(例如生成句子)。

IV. EXPERIMENTS

A. Datasets

IAM包含了657位不同的作家用英语写的13000多行和115000个单词。它可以作为各种手写识别任务的基础。
RIMES收录了1000多位作者用法语写的6万多字。它的目标是评估一个专门用于手写识别和索引文档的系统。
CVL包含由311位不同的作者撰写的七种不同的手写文本(一种是德语，六种是英语)。我们使用英语部分进行领域适应实验。
此外，我们使用上述数据集的默认训练子集和测试子集进行下面的实验。

B. Implementation Details

我们的生成器由五个卷积、六个残差块和五个反卷积组成，如下表所示。样式向量，其维数被设置为256，与第三个残差块的输出特征映射相连接。
- 生成器的结构。k、s、p分别表示内核、步长和填充大小。例如，k:3 表示一个3 × 3的内核大小。“N。”、“r”“tanh”分别代表批规范化、relu和tanh层。
对偶鉴别器共享前四个卷积，其架构如表III和表IV所示。
- 分隔字符鉴别器的体系结构。每个卷积层的核大小为3，步长为1，填充大小为1。“N.”、“R.”、“avgpool” 分别代表实例归一化层、预池层和平均池层。
- 草书联合鉴别器的结构，它与分隔字符鉴别器共享前四个卷积。每个卷积层的核大小为3，步长为1，填充大小为1。“N.”、“R.”、“avgpool” 分别代表实例归一化层、预池层和平均池层。
我们使用ADAM作为优化器，设置β1 = 0.5和β2 = 0.999。学习率设为10−4，迭代30万次后线性下降为10−5。批大小为128。图像被调整为64像素的高度，保持比例不变。如果图像宽度小于400，我们用白色填充图像以获得400像素的宽度。否则，我们将其大小调整为400。我们的方法是建立在PyTorch框架上的，所有的实验都是在NVIDIA 1080Ti gpu上进行的。

C. Evaluation Metrics

根据[ScrabbleGAN]，[Adversarial generation of handwritten text images conditioned on sequences]的设置，评估指标是广泛使用的GAN指标Frechet Inception Distance´(FID)和Geometric-Score (GS)。FID捕获生成图像与真实图像的相似性，并验证其与人类判断一致。GS将底层数据流形的几何性质与生成的流形进行比较，为评价提供了定性和定量的手段。FID和GS值越小越好。
在识别性能方面，我们使用单词错误率(WER)和字符错误率(CER)作为手写文本识别的指标。WER表示单词级别的错误在ground truth所有单词中的比例，CER表示由ground truth长度归一化的Levenshtein距离。较低的WER和CER值为佳。

D. Ablation Study

我们研究了建议的组件在RIMES上的有效性，并在表5中以渐进组合的方式列出了五个结果。首先，我们仅使用 $L_{join,adv}$ ;因此，该框架退化为仅使用对抗性损失的PatchGAN。隐向量 z 被噪声向量n ~ N (0;1).如下表所示，基线生成包含无意义的笔画，并且处于折叠模式。FID和GS分数很大，这表明源图像和生成图像之间的差距很大。
- 消融实验。度量是fid和gs。较低的值更可取。
然后我们添加相同的映射损失 $L_{idt}$ 来简化训练。我们发现自编码器对训练的成功和稳定起着重要的作用。在生成的图像中可以看到一些符号。为了进一步指导生成器保留输出图像上的文本内容，我们使用字符级内容丢失 $L_{char;content}$ 添加了内容监督。
“tomorrow”这个词可以从生成的图像中区分出来。随后，我们添加了字符级别的对抗损失 $L_{char;adv}$ ，以提高每个字符的真实感。生成的图像非常逼真，令人满意。这表明两级风格对抗学习的双重鉴别器对生成的手写文本图像的质量至关重要。此外，我们要求生成器呈现易于识别的特定手写样式。在写作者id的监督下，将笔迹样式参数化为存储在样式库中的相应潜在向量，作为样式生成器的样式先验。通过这种方式，出现了更多的书写功能，包括字符倾斜，草书连接，笔画宽度，墨渍，纸张背景等。得到最佳 FID 为12.06,GS为5.59 × 10−4。

E. Comparison with Previous Methods

应用与[ScrabbleGAN]，[Adversarial generation of handwritten text images conditioned on sequences]中类似的设置，我们在FID(使用25k真实图像和25k生成图像)和GS(使用5k真实图像和5k生成图像)的度量下评估生成图像的质量。请注意，我们的评估更严格，如[ScrabbleGAN]所建议的。我们在评估前完成训练，而不是在训练中进行实时评估并选择最佳分数。如下表所示，提议的SLOGAN在FID和GS指标上都取得了最好的结果。
- 与以往方法比较。
SLOGAN受益于更多的辅助目标和更细粒度的监督，包括两级指导，内容和作者ID监督。如下图所示，我们用更少的工件生成了更清晰的字符。
- 与以往研究的视觉对比。从左到右:图片来自Alonso等人、ScrabbleGAN、HiGAN和我们的SLOGAN。每一行的单词都是一样的。不清楚的文字和意外的文物用红圈表示。所提出的方法可以产生更清晰的字符和更少的意外伪影。

F. Generating Out-of-Vocabulary Words

通过仅改变输入图像，SLOGAN能够从训练词汇中合成单词。为了验证我们方法的有效性和通用性，我们进行了一个实验，根据更严格的GAN writing规则生成词汇外的单词，其中最终的FID分数是每种手写风格的FID分数的平均值，而不是直接对随机抽样生成的图像进行评估。在这种设置下，只有少数训练样本的笔迹风格与有数百个样本的笔迹风格所占的比例相同。这意味着我们的方法需要表现良好，尽管少数样本学习某些笔迹风格。如下图所示，FID分数随着训练样本数量的增加而降低。我们发现，通过从大约20个样本中学习，我们的方法可以显著地模仿笔迹风格。
- FID对现有手写风格的词汇外单词图像进行评分。这些样式按照训练样本的数量进行排序。FID值越小越好。
为了进行公平的比较，我们选择GAN writing 的相应结果(具有现有风格但未见内容)，因为生成的包含超出词汇表的单词的图像受到训练集中现有手写风格的限制。如下表所示，虽然之前的研究提供了有希望的生成图像，但我们的方法更进一步，并且明显优于它。
- 词汇外词的比较。

G. Diversity of Generation

生成器根据输入的打印样式图像 $I_{print}$ 和潜在样式向量 z 学习生成图像。一旦我们改变 $I_{print}$ 和 z，生成的图像就会达到不同的效果，这增加了训练数据的多样性。
内容多样性由于生成器以完全卷积的方式工作，因此输入和输出图像之间存在空间一致性。如下图所示，我们展示了不同输入图像产生的不同效果，包括相邻字符间隔、弯曲文本和任意长度文本。
- 以往研究无法实现的内容多样性。效果包括(a)相邻字符间隔，(b)弯曲文本和©任意长度的句子，单词之间有合理的间距，由不同的输入图像产生，用红色框表示。我们演示了为每个输入图像生成的五种类型的样本。放大以获得更好的视野。
例如，我们扩大输入图像上相邻字符之间的间隔，生成图像上的字符间隔也被扩大。此外，使用弯曲的打印文本图像作为输入，生成器还输出弯曲的手写文本图像。同时，在单词级图像上训练的生成器能够合成任意长度的句子，只需要改变输入的打印样式图像中的句子字符串。所提出的SLOGAN可以合理地处理词间的空格，而以往的研究只能生成一个没有空格的长词句。从这个角度来看，所建议的SLOGAN使用起来简单灵活。
笔迹风格参数化为潜在向量 $z = \{z_1,...,z_k,...,z_d\}$ ，其中的元素 zk 是可操作的，以控制生成的样式。如下图所示，我们随机地对参数引入扰动，以生成各种手写样式。将生成的样本(用绿色边界框标记)加入到现有的训练集后，分布更加均匀合理，说明样式的偏差得到了明显的纠正。
- 通过t-SNE分析单词“the”的书写风格分布。左:IAM训练集中现有风格的分布;右:将我们生成的样本(内容相同的“the”，用绿色边界框标记)添加到现有训练集后的分布。原始分布中大量的空白空间暗示了风格的局限性。通过我们生成的各种样式，分布更加均匀合理，说明样式的偏差得到了明显的纠正。放大以获得更好的视野。
我们还将我们的方法与高级GAN writing进行了比较。如下图所示，我们按照Kang等人的设置，随机生成“deep”一词的各种样式，并通过t-SNE可视化其分布。可以看出，我们生成的样本分布更加均匀，这表明了我们数据合成多样性的优越性。由于原论文没有报道识别精度的提高，我们只进行了基于视觉效果的对比，以供参考。
- 通过t-SNE分析“deep”字的书写风格分布。左:GANwriting生成的样本分布;右:我们的分布。按照Kang等人的设置，我们生成2500个样本用于t-SNE嵌入。我们的样本分布更加均匀合理，说明了我们方法多样性的优越性。放大以获得更好的视野。
此外，我们演示了通过两种方式操纵潜在向量所实现的视觉效果。如下图所示，我们将整个向量 z 插入两个随机向量 $z_a$ 和 $z_b$ 之间，以实现风格插值，并对某些元素 zk 进行操作，以实现特殊的属性更改。
- 由潜在向量插值(上)和某些元素操作(下)产生的风格多样性。

H. Improvement of Recognition Performance

各种合成数据显著地促进了训练样本的多样性，从而有利于文本识别器的鲁棒性。为了验证生成样本的有效性，并与之前的研究进行比较，我们采用添加 100K 生成样本进行训练的设置。然而，之前的研究使用了不同的识别器，这些识别器没有直接可比性。因此，我们在随后的实验中使用了更常见的广义识别器。如下表所示，额外的合成数据显著提高了识别性能。例如，IAM 的 WER 显著下降(#1.83%，从19.12%降至17.29%)。实际上，我们的基线高于[ScrabbleGAN]，表明改进的空间较小，但我们获得了比他们更多的误差减少(小于1%)。
- 多样化的综合数据增强了识别器的鲁棒性。“+1”表示使用尽可能多的合成数据进行训练。在我们的实践中，大约1000万个样本就足够训练了。
另一个有趣的观察是，额外的100,000个样本几乎不足以用于训练。我们发现大约有1000万个合成样本可以达到我们方法的上界。如上表所示，1000万个样本进一步显著提高了识别性能，特别是在IAM的WER上(#2.32%，从17.29%提高到14.97%)。
我们还对数据增强和数据合成之间的关系感兴趣。正如在相关工作一节中所讨论的，数据增强是在现有样本上执行的，不能创建包含训练词汇表之外的单词的新图像，而数据合成使这些图像可用。因此，我们将我们的数据合成方法与数据增强相结合，使用开源工具箱【Canjie-Luo (Canjie Luo) (github.com)】，并对合成的样本进行随机增强。为了公平比较，下表中列出的方法具有相似的训练设置。使用其他数据或语言模型的方法超出了本研究的范围。如下表所示，独立增强和合成有利于识别器的鲁棒性。同时使用数据合成和数据增强训练的识别器性能最好，说明了数据合成和数据增强的互补性。
- 数据综合与数据扩充的互补性。采用数据合成和数据增强两种方法均可获得最佳结果。

I. Domain Adaptation

我们通过使用 IAM 训练集和类似 CVL 的生成样本来训练识别器，并在CVL测试集上进行评估，进一步探索了领域自适应的潜在能力。按照ScrabbleGAN的设置，我们只使用 IAM 训练数据集训练GAN，并使用CVL词典作为额外的训练数据生成100K个样本。我们重复训练五次，并报告其平均值和标准差。如下表所示，再现的基线与原始研究的基线相当。在加入100K生成样本后，识别性能显著提升。使用我们的合成数据训练的识别器获得了更低的WER和CER，表明我们生成的数据质量更好，多样性更好。
- 利用iam训练数据集进行领域自适应，并利用CVL词典进行样本合成。我们在CVL测试数据集上评估了识别性能。

J. Turing Test

我们通过两次人体评价实验，研究了生成的图像是否与真实笔迹样本难以区分。我们招募了40名曾经从事过文本图像处理任务的志愿者，包括文本区域检测、文本图像识别、文本图像增强等，因为我们认为从事过相关工作的人对文本模式的方差具有更强的敏锐度和洞察力。
首先，我们向志愿者展示了20个具有代表性的真实笔迹样本。然后，他们被要求将图像分类为真实图像或生成图像。用于分类的图像是从真实的训练图像和我们生成的图像中随机抽取的。我们从每位志愿者那里收集了50份有效回复，即总共2000份回复。结果在下表中以混淆矩阵的形式呈现，包括召回率(Rec)，精度(Pre)，假阳性率(FPR)，假遗漏率(FOR)和准确性(Acc)值。我们发现分类准确率接近50%，这表明它几乎是一个随机的二元分类。这表明即使是专家志愿者也不能轻易识别生成的图像。
- 第一次图灵测试中的混淆矩阵。志愿者被要求将一张图像分类为真实的还是生成的。这些值包括召回率(rec)、精度(pre)、误报率(fpr)、误漏率(for)和准确率(acc)。
此外，通过提高生成图像的质量要求，我们报告了另一个可供参考的结果。生成的图像不仅要像真实的笔迹图像，而且要成功地模仿笔迹风格。具体来说，我们给志愿者三幅相同风格的真实笔迹图像，并要求他们判断另一幅图像的风格是否相同。每次用于分类的图像都是从现有图像和生成的具有相同样式的图像中随机抽取的。我们收集了每位志愿者50份有效回复，共计2000份回复。如下表所示，虽然准确率从上表的50.95%提高到55.25%，但我们惊讶地发现，它仍然接近于随机的二值分类。注意，这个设置(额外的书写风格要求)比第一个人体实验要严格得多。实验再次验证了我们的方法生成的样本能够很好地模仿人类的真实笔迹。
- 第二次图灵测试中的混淆矩阵。志愿者被要求评估生成的风格是否成功地模仿了目标风格。这些值包括召回率(rec)、精度(pre)、误报率(fpr)、误漏率(for)和准确率(acc)。虽然这是一个比第一个更严格的测试，但结果是合理的和可接受的。

V. CONCLUSION

在本文中，我们提出了SLOGAN来丰富手写训练样本以实现鲁棒识别。我们从参数化样式和控制参数生成新样式的角度对手写数据进行综合。这是通过使用样式库来参数化手写样式作为潜在向量来实现的，生成器在模仿特定的手写样式之前将其作为样式。风格库和生成器的联合培训只需要作者ID的监督。通过这种方式，可以通过简单地操纵潜在向量来生成不同的手写样式。
我们的方法的另一个亮点是，我们提出了专门为文本字符串图像设计的双鉴别器，提供了相对全面的监督，从而使文本字符串图像以图像到图像的方式合成。将打印样式图像转换为手写样式图像有很多好处。首先，它可以通过简单地更改输入文本内容从词汇表中生成单词或句子。其次，输入图像上文本字符串的不同空间排列对输出图像的影响是一致的，这表明我们的生成器可以合成任意形状的文本图像。
大量的实验揭示了我们的方法在生成质量和多样性方面的优越性，以及它对识别器鲁棒训练的贡献。我们的数据合成方法还可以补充数据增强方法，进一步提高识别性能。同样值得注意的是，我们的方法有可能胜任领域适应任务。最后，图灵测试表明，我们人工合成的样本是相当可信的，他们可以欺骗人类的判断。在未来，我们将通过研究GAN潜在空间的可解释性来探索在线硬例生成。通过这种方式，可以获得更有效和更具体的用于训练的手写样本。

hehe识别字符数: 21302
yutu识别字符数: 10813
全字符集字符数： 89114
hehe识别字符在全字符集中字符数： 21258
yutu识别字符在全字符集中字符数： 10811
hehe识别字符在全字符集中字符: {‘연’, ‘티’, ‘쯤’, ‘수’, ’ ‘, ‘¢’, ‘화’, ‘₱’, ‘보’, ‘☒’, ‘£’, ‘미’, ‘존’, ‘¥’, ‘콜’, ‘©’, ‘®’, ‘«’, ‘한’, ‘폴’, ‘촛’, ‘름’, ‘또’, ‘및’, ‘금’, ‘õ’, ‘쯔’, ‘참’, ‘스’, ‘쏴’, ‘홀’, ‘팀’, ‘리’, ‘하’, ‘ヿ’, ‘집’, ‘들’, ‘투’, ‘통’, ‘쭙’, ‘횬’, ‘를’, ‘학’, ‘Ữ’}
yutu识别字符在全字符集中字符: {’ ', ‘£’}