外刊文章翻译-Image Based Texts Transfer in Scenes

最新推荐文章于 2024-10-01 20:12:06 发布

土豆片片

最新推荐文章于 2024-10-01 20:12:06 发布

阅读量69

点赞数 1

分类专栏：外刊阅读文章标签：论文阅读

原文链接：https://www.jianshu.com/p/0cb42632d732

版权

外刊阅读专栏收录该内容

23 篇文章 0 订阅

订阅专栏

研究提出了一种三阶段的深度学习框架SwapText，用于在保持原始样式的情况下在场景图像中交换文本。通过文本交换网络、背景完成网络和融合网络，解决了文本检测和识别的数据增强问题，尤其在处理几何失真时表现出色。实验结果验证了其在多个场景文本数据集上的有效性。

摘要由CSDN通过智能技术生成

幻灯片1.PNG

幻灯片2.PNG

幻灯片3.PNG

有个疑问，Ist作为文本交换网络的ground-truth，这是如何得到的？
在这里插入图片描述

幻灯片4.PNG
在这里插入图片描述

幻灯片5.PNG
在这里插入图片描述

幻灯片6.PNG

Abstract

由于不同因素之间的复杂作用，在保留原始字体，颜色，大小和背景纹理的同时在场景图像中交换文本是一项具有挑战性的任务。在这项工作中，我们提出了一个三阶段框架SwapText，用于跨场景图像传输文本。首先，提出了一种新颖的文本交换网络来仅替换前景图像中的文本标签。其次，背景完成网络来学习以重建背景图像。最后，通过融合网络将生成的前景图像和背景图像用于生成文字图像。使用提出的框架，即使出现严重的几何失真，我们也可以巧妙的处理输入图像的文本。定性和定量结果显示在几个场景文本数据集上，包括规则和不规则文本数据集。我们进行了广泛的实验以证明我们的方法的有效性，例如基于图像的文本翻译，文本图像合成等。

1. Introduction

想象一下，能够在场景图像中交换文本，同时在几秒钟内保持原始字体，颜色，大小和背景纹理，而无需花费数小时进行图像编辑。在这项工作中，我们旨在通过自动替换场景图像中文本的算法来实现此目标。文本交换的核心挑战在于生成视觉逼真的文本并与原始文本保持一致的样式。

文本交换或文本替换在许多情况下都涉及到，包括文本检测，文本识别，海报中的文本转换和其他创造性应用。**对于文本检测和识别任务，文本交换是一种非常有用的数据增强方法。**见证了深度神经网络（DNN）在各种计算机视觉任务中的巨大成功，获得大量带注释的训练图像已成为训练DNN模型的瓶颈。最简单，使用最广泛的方法是通过几何变换来增加训练图像，例如平移，旋转和翻转等。近来，已经提出了基于图像合成的方法[11、7、39]来训练文本检测和识别模型。这些方法通过结合不同的渲染技术对光和能量的物理行为进行建模来从无文本图像中创建新图像。但是，合成图像无法与场景中的图像完全融合，这在将合成图像应用于DNN模型训练时至关重要。

近年来，许多图像生成模型，例如生成对抗网络（GAN）[6]，可变自动编码器（VAE）[17]和自回归模型[25]，为现实的图像生成任务提供了强大的工具。在[9，38，33]中，GAN用于图像补全，可为缺失区域生成视觉上逼真的和语义上合理的像素。 [21，8，28，22]已经利用这些网络生成具有不同姿势或服装的新颖人物图像。

基于GAN，我们提出了一个统一的框架Swap-Text用于场景中的文本交换。在图1中可以看到一些示例。我们采用分而治之的策略，将问题分解为三个子网络，即文本交换网络，背景完成网络和融合网络。在文本交换网络中，内容图像和样式图像的特征被同时提取，然后通过自注意网络进行组合。**为了更好地学习内容图像的表示形式，我们使用内容形状转换网络（CSTN）根据样式图像的几何属性来转换内容图像。根据我们的实验，此转换过程显著改善了图像生成，特别是对于透视图像和弯曲图像。**然后，使用背景完成网络生成样式图像的背景图像。因为我们需要擦除样式图像中的原始文本笔触像素，并根据内容图像填充适当的纹理。最后，将文本交换网络和背景完成网络的输出输入到融合网络中，以生成更逼真的和语义一致的图像。整个框架是端到端可训练的，并且在几个公共基准上进行了广泛的实验，证明了其在有效性和效率上的优越性。

我们的贡献总结如下：

我们设计了一个端到端框架，即交换文本，它包含三个子网，文本交换网络，后台完成网络和融合网络。
我们提出了一种新颖的文本交换网络，该网络可以替换场景文本图像中的文本，同时保持原始样式。
我们以高质量的视觉效果展示了我们的场景文本交换方法的有效性，并展示了其在文本图像合成，基于图像的文本翻译等方面的应用。

2. Related Work

文本图像合成
图像合成已在计算机图形学研究中得到了广泛的研究[4]。文本图像合成被研究为一种数据增强方法，用于训练准确而健壮的DNN模型。例如，Jaderberg等[11]使用单词生成器来生成用于文本识别任务的合成单词图像。Gupta等 [7]开发了一个健壮的引擎来生成用于文本检测和识别任务的合成文本图像。**文本图像合成的目标是将文本插入背景图像中语义上敏感的区域。许多因素都影响合成文本图像的真实相似度，例如文本大小，文本视角，环境光照等。**在[39]中，Zhanet等人通过结合语义连贯，视觉注意力和自适应文本外观这三种设计来实现文本文本图像合成。尽管文本图像合成在视觉上是逼真的，但合成图像与真实图像之间仍存在许多差异。例如，与真实图像相比，合成图像中文本字体和背景图像非常有限。

在最近，基于GAN的图像合成技术得到了进一步的探索。在[41]中，Zhan等人提出了一种将几何合成器和外观合成器组合在一起的空间融合GAN，以在几何和外观空间中实现合成现实。Yang等人[36]使用双向形状匹配框架通过可调整的参数来控制字形的关键风格。 GA-DAN [40]提出了一项有趣的工作，能够同时在几何空间和外观空间中对跨域移位进行建模。[2]中提出了MC-GAN来实现从A到Z的字母集的字体样式转换。 Wu等人 [34]提出了一个端到端的可训练样式保留网络来编辑自然图像中的文本。

图像生成
随着生成模型（例如GAN [6]，VAE [17]和自动回归模型[25]）的巨大成功，逼真而清晰的图像生成最近吸引了越来越多的关注。传统的生成模型使用GAN [6]或VAE [17]来将噪声z生成的分布映射到实际数据的分布。例如，GANs [6]用于生成真实面孔[37、3、15]和鸟类[29]。

为了控制所生成的结果，Mirzaet等人[23]提出了有条件的GAN。它们会生成在类别标签上进行分类的MNIST数字。在[12]中，karacanet等。根据语义布局和场景属性（例如日夜，晴天雾天）生成逼真的室外场景图像。 Lassneretal [19]基于细粒度的身体和衣服片段生成了穿着者的全身图像。完整模型可以以姿势，形状或颜色为条件。Ma[21，22]基于图像和姿势生成人图像。在[18]中提出了快速人脸交换，以将输入身份转换为目标身份，同时保留姿势，面部表情和光照。

图像完成
最近，基于GAN的方法已经成为图像完成的一种有希望的范例。 Iizuka等 [9]提议使用全局和局部判别器作为对抗性损失，在其中全局和本地一致性都得到了加强。Yu等人 [38]使用上下文注意力层来显式地参与远距离空间位置上的相关特征补丁。 Wang等 [33]使用多列网络以并行方式生成不同的图像分量，并采用隐式的多样化MRF正则化来增强局部细节。

3. Methodology

给定场景文本图像Is，我们的目标是在保持原始样式的基础上基于内容图像Ic替换文本。如图2所示，我们的框架由文本交换网络，背景完成网络和融合网络组成。文本交换网络首先从Is中提取样式特征从Ic中提取内容特征，然后通过自注意网络合并这两个特征。为了更好地表示内容，我们使用内容形状转换网络（CSTN）根据样式图像Is的几何属性来转换内容图像Ic。背景完成网络用于重建样式图像Is的原始背景图像Ib。最后，文本交换网络和背景完成网络的输出被融合网络融合以生成最终的文本图像。

3.1. Text Swapping Network

现实情况下的文本实例具有多种形状，例如，呈水平，定向或弯曲形式。文本交换网络的主要目的是在保留原始样式（尤其是文本形状）的同时替换样式图像Is的内容。为了提高不规则文本图像生成的性能，我们提出了一个内容形状转换网络（CSTN）将内容图像映射到样式图像的相同几何形状中，然后通过3个下采样卷积层和几个残差块对样式图像和转换后的内容图像进行编码。为了充分融合样式和内容特征，我们将它们馈入了一个自注意网络。对于解码，使用3个上采样反卷积层来生成前景图像If。

3.1.1 Content Shape Transformation Network

文本形状的定义对于内容形状的转换至关重要。受文本检测[20]和文本识别[35]领域中的文本形状定义的启发，可以使用2 K个基准点P = {p1，p2，…，p2K}定义文本的几何尺寸属性，如图3所示。

3.1.2 Self-attention Network

在对内容和样式图像进行编码之后，我们将两个特征图都馈送到自注意网络，该网络会自动学习内容特征图Fc和样式特征图Fs之间的对应关系。输出特征图是Fcs，图5（a）给出了自注意力的网络结构。

内容特征Fc和样式特征Fs首先沿其深度轴连接。然后，我们遵循[42]中类似的自注意力机制来生成输出特征图Fcs。

除了这种单级样式化之外，我们还开发了多级样式化管道，如图5（b）所示。我们将自注意力网络依次应用于多个特征图层，以生成更逼真的图像。

3.2. Background Completion Network

文本交换网络主要侧重于前景图像生成，而背景图像在最终图像生成中也起着重要作用。为了生成更逼真的文字图像，我们使用背景完成网络来重建背景图像，其结构如表1所示。大多数现有的图像完成方法都是通过借用或复制周围区域的纹理来填充图像的像素。一般的结构遵循编码器-解码器结构，我们在编码器之后使用膨胀卷积层来计算具有较大输入区域的输出像素。通过使用较低分辨率的膨胀卷积，模型可以有效地“看到”输入图像的较大区域。

3.3. Fusion Network

在此阶段，将文本交换网络和背景完成网络的输出融合以生成完整的文本图像。如图2所示，融合网络遵循编码器-解码器结构。类似于[34]，我们在融合解码器的上采样阶段将背景完成网络的解码特征图连接到具有相同分辨率的相应特征图。我们使用Gfuse和Dfuse分别表示生成器和判别器网络。融合网络的损失函数可计算如下：

为了制作更逼真的图像，我们还遵循样式迁移网络[5，26]的类似思想，将VGG-loss引入融合模块。 VGG损失分为两部分，即知觉损失和风格损失，如下所示：

4. Experiments

4.1. Implementation Details

我们遵循[34]中的类似思想来生成具有相同样式的成对合成图像。我们使用超过1500个字体和10000个背景图像来生成总共100万个狮子训练图像和10000个测试图像。输入图像的大小调整为64×256，批处理大小为32。从权重为零的正态分布初始化所有权重，标准差为0.01。使用β1= 0.9和β2= 0.999的Adam优化器[16]来优化整个框架。在训练阶段将学习率设置为0.0001。我们在Ten-sorFlow框架[1]下实现我们的模型。我们的方法中的大多数模块都是GPU加速的。

4.2. Benchmark Datasets

我们在几个公共基准数据集上评估了我们提出的方法。

IIIT5K-Words[24]（IIIT5K）包含3000个裁剪的单词图像进行测试，而每个图像都分配有50个单词的词典和1000个单词的词典。所有图像都是从Internet上收集的。
StreetView Text [32]（SVT）是从Google Street View收集的，它在测试集中包含647张图像。许多图像被噪点和模糊严重破坏，或者分辨率非常低。每个图像都与一个50字的词典相关。
ICDAR2013 [14]（IC13）从RobustReading Chaallenges 2013获得。我们遵循[32]提出的协议，其中图像包含非字母数字字符或少于三个字符不考虑字符。过滤样本后，数据集将包含857个图像，而没有任何预定义的词典。
ICDAR2015 [13]（IC15）比IC13更具挑战性，因为大多数文字图像都受到运动模糊和低分辨率的困扰。而且，许多图像包含严重的几何失真，例如任意定向的透视图或弯曲文本。我们按照IC13中的相同协议过滤图像。
SVT-Perspective[27]（SVTP）包含639个裁剪后的图像以进行测试，这些图像是从Google街景视图中的侧视图快照中收集的。 SVT-Perspective中的大多数图像都因透视失真而严重变形。
CUTE80 [30]收集起来以评估弯曲文本的识别度。它包含288张用于测试的裁剪图像，这些图像是从自然场景中拍摄的80张高分辨率图像中选择的。

4.3. Evaluation Metrics

我们采用图像生成中常用的指标来评估我们的方法，其中包括：

MSE，也称为l2误差。
PSNR，用于计算峰值信噪比。
SSIM，用于计算两个图像之间的平均结构相似性指数。
文本识别准确度，我们使用文本识别模型CRNN [31]来评估生成的图像。
文本检测准确度，我们使用文本检测模型EAST [43]来评估生成的图像。
较低的l2误差或较高的SSIM和PSNR表示结果与ground truth情况相似。

4.4. Ablation Studies

在本节中，我们将通过经验研究不同的模型设置如何影响我们提出的框架的性能。我们的研究主要集中在以下方面：内容形状转换网络，自注意力网络和背景完成网络中的膨胀卷积。图6给出了一些定性结果。

内容形状转换网络（CSTN）
内容形状转换网络（CSTN）旨在根据样式图像的几何属性来转换内容图像。这对于真实世界图像中的文本样式转换非常重要，因为场景文本图像通常包含严重的几何变形，例如任意定向，透视图或弯曲形式。使用CSTN，可以实现内容和样式图像之间几何属性的一致性。尽管整个模型很难在真实图像上训练，但CSTN可以精确fintune真实数据集。如图6所示，生成的文本的位置更合理。表2给出了CSTN的定量结果，PSNR平均增加了0.35以上，SSIM平均增加了0.017以上。

自注意力网络
使用自注意力网络来充分结合内容特征和风格特征。根据表2，使用单层自注意力网络，平均l2误差减少约0.003，平均PSNR增加约0.3，平均SSIM增加约0.012。为了使用样式和内容特征的更多全局统计信息，我们采用了一个多层的自注意力网络来融合全局和局部模式。借助多级自我关注网络，所有的度量方法都得到了改进。

膨胀卷积
**膨胀卷积层可以扩大像素区域以重建背景图像，因此更容易生成更高质量的图像。**根据表2，具有膨胀卷积层的背景完成网络在所有指标上均具有更好的性能。

4.5. Comparison with Prior Work

为了评估我们提出的方法，我们将其与两种文本交换方法进行了比较：[10]中提出的pix2pix和Wuet等人[34]提出的SRNet。我们使用生成的数据集来训练和测试这两个模型。根据论文，两种方法都保持相同的配置。

定量结果
在表2中，我们给出了本方法和其他两种竞争方法的定量结果。显然，我们提出的方法在不同语言的所有指标上都有显著改进，平均l2误差减少了0.009以上，平均PSNR增加了0.9以上，平均SSIM增加了0.04以上。第二个最好的方法。

为进一步评估生成图像的质量，我们建议对生成图像使用文本识别和检测准确。我们使用文本识别模型CRNN来评估我们在SVT-P，IC13和IC15数据集上生成的图像。 CRNN模型是根据这些数据集上的训练图像混合进行训练的，其识别精度如表3所示。在IC13上，识别准确度甚至高于真实测试集。我们使用改版的EAST [43]来检测图像中的文本。由于无法使用原始EAST，因此我们使用ResNet-50骨干网来替换公开实现。我们将文本替换为IC13和IC15测试集的图像，然后使用在IC13和IC15训练数据集上训练的模型评估生成的数据集。根据表4所示的比较结果，F度量生成的IC13和IC15测试集分别为78.4％和80.2％，与真实测试集的指标接近。这表明我们的框架生成的图像非常好。现实，甚至可以欺骗文本检测模型。

4.6. Image Based Text Translation

基于图像的翻译是任意文本样式传输的最重要应用之一。在本节中，我们提供一些基于图像的翻译示例，如图7所示。我们在英语和中文之间进行翻译。从结果可以看出，无论目标语言是中文还是英文，都可以很好地保持颜色，几何变形和背景纹理，并且字符的结构与输入文本相同。

在图9中，我们还展示了在场景文本数据集上评估的模型的一些示例结果。根据图9，我们的模型可以替换输入图像中的文本，同时保留原始字体，颜色，大小和背景纹理。

4.7. Limitations

我们的方法有以下局限性。由于训练数据量有限，因此无法充分利用几何属性空间和字体空间。当样式图像中的文本出现波动时，我们提出的方法将失败，请参见图8（顶部）。图8（底部）显示了使用WordArt中的样式图像的失败案例。

5. Conclusion

在这项研究中，我们提出了一种健壮的场景文本交换框架SwapText，以解决用预期的文本替换场景文本图像中的文本的新任务。我们采用分而治之的策略，将问题分解为三个子网络，即文本交换网络，背景完成网络和融合网络。在文本交换网络中，内容图像和样式图像的特征被同时提取，然后通过自注意网络进行组合。为了更好地学习内容图像的表示，我们使用内容形状转换网络（CSTN）根据样式图像的几何属性对内容图像进行转换。然后，使用背景完成网络来生成内容图像的背景图像样式图片。最后，将文本交换网络和背景完成网络的输出馈送到融合网络中，以生成更真实和语义一致的图像。在几个公共场景文本数据集上的定性和定量结果证明了我们方法的优越性。在未来的工作中，我们将探索基于字体和颜色生成更多可控制的文本图像。