Editing Text in the Wild

最新推荐文章于 2023-12-23 23:03:56 发布

一蓑烟雨渡平生

最新推荐文章于 2023-12-23 23:03:56 发布

阅读量695

点赞数 1

分类专栏： NLP 文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qq_41894176/article/details/125254515

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

代码已跑通，作者是用5w数据集训练，目前我是用1w数据集训练，效果上感觉也还行。
问题：训练过程中Loss很高，需要调参。
在这里插入图片描述

论文由华中科技大学学生在百度CV部门实习发布的一篇论文。
摘要：
在这篇论文中，作者的兴趣方向是编辑自然场景图像中的文本，其目的就是用另一个词替换或者修改源图像中的一个词，同时保持其真实外观。这是一项很有挑战的任务，为了防止编辑后的图像在视觉上与源图像无法区分，源图像背景和文本风格都需要保留。作者提出一个（end-to-end trainable style retention network）端到端的可训练风格的保留网络SRNet,这个网络由三个模块组成：文本转换模块、背景修复模块和融合模块。文本转换模块将源图像的文本内容转移到目标文本中，并同时保持原始文本风格不变；背景修复模块是擦除原始文本，并用适当的纹理填充文本区域；融合模块结合前面两个模块的信息，生成编辑后的文本图像。据作者所知，这项工作是第一次尝试在文字层面上编辑自然图像中的文本。合成和真实数据集（ICDAR2013）的视觉效果和定量结果分析，充分证明了模块化分解的重要性和必要性。作者还进行了大量实验，已验证该方法在各种实际应用中的有效性，如文本图像合成、增强现实（AR）翻译、信息隐藏等等。

关键字：文本编辑；文本合成；文本擦除；GAN

介绍
在图像和视频中的文本或者场景文本包含着丰富的语义信息，在许多多媒体引用程序中非常有用。再过去十年中，场景文本阅读及其应用取得了重大进展【引用论文4,16,26,34,38】。在这篇论文中，作者关注一项与场景文本相关的新任务：场景文本编辑。给定一个文本图像，作者的目标是在不破坏其真实外观的情况下替换其中的文本实例。如图1a所示，所提出的场景文本编译器通过编译源图像中的每个单词来生成真实文本图像，同时保留文本和背景样式。在例如文本图像合成【引用论文33】、广告图片编辑、文本图像矫正、增强现实翻译【引用论文5】等实际应用的推动下，场景文本编译已引起学术界和工业界越来越多的关注。

在这里插入图片描述

如图1（b）所示，场景文本编辑面临两大挑战：文本风格转换和背景纹理保留。特别的是，文本风格由语言、字体、颜色、方向、笔画大小和空间透视等多种因素组成，因此很难准确地捕捉源图像中完整的文本风格并将其传递给目标文本。同时，也很难保持编辑背景的一致性，特别是当文本出现在一些复杂的场景文本中时，如菜单和街道商店标志。此外，如果目标文本比原始文本短，则应删除字符超过区域并使用适当的纹理填充。
考虑到这些挑战，作者提出一个应用于场景文本编译的风格保留网络SRNet，它是从一对图像中进行学习的。SRNet的核心思想是将复杂的任务分解为几个简单、模块化和可联合训练的子网络：文本转换模块，背景修复模块和融合模块，如图2所示。首先，文本转换模块（TCM）将源图像的文本风格转换为目标文本，包括字体、颜色、位置和比例，为了保持目标文本的语义，作者在TCM中引入骨架引导学习机制，其有效性已在实验4.4中得到验证。同时，背景修复模块（BIM）按照“U-NET”【引用论文23】的一般结构，以自下而上的特征融合方式擦除原始文本笔划像素，并用适当的纹理填充它们。最后，融合模块自动学习如何有效地融合前景信息和背景纹理信息，从而合成编辑后的文本图像。
生成对抗网络（GAN）模型【引用论文7,11,40】在一些任务中取得了巨大进展，如图像到图像的转换、风格转换，这些方法通常采用编码器-解码器结构，将输入嵌入到子空间，然后对其进行解码以生成所需图像。所提出的SRNet将网络分解为模块化的子网络。而不是选择这种单一的分支结构，同时将复杂的任务分解为几个易于学习的任务。这种网络分解策略在最近的工作中被证明是有用的【引用论文1,3】。此外，SRNet的实验结果优于pix2pix【引用论文11】，pix2pix是一种成功的图像到图像转换方法，这进一步证实了SRNet的有效性和鲁棒性。相比于字符级别（character-level）的替换工作【引用论文24】，作者的模型以更高效的单词级别（world-level）编辑方式工作，除了能够以相同的语言编辑场景文本图像（如ICDAR2013上的英文单词），SRNet在跨语言文本编辑和信息隐藏任务中也显示了非常令人鼓舞的结果，如图7,8所示。
本文的主要贡献是提出了一种用于编辑场景文本图像的风格保持网络：SRNet。与现有的方法相比，SRNet在以下几个方面具有明显的优势：
1、据作者所知，这项工作是第一次通过端到端可训练网络解决单词或文本行级别场景文本编辑问题；
2、作者将SRNet分解为几个简单、模块化和可学习的模块，包括文本转换模块、背景修复模块和最终融合模块，这使得SRNet能够生成比大多数图像到图像转换模型GAN 更真实的结果。
3、在笔画骨架的指导下，该网络能够尽可能地保留语义信息。
4、该方法在多个场景文本编辑任务上表现出优越的性能，如语言文本图像编辑、AR翻译（跨语言）。信息隐藏（如word-level文本擦除）。

相关工作
2.1GAN
2.2字体风格迁移
2.3文本删除和编辑

方法
作者提出了一种用于场景文本编辑的风格保留网络（SRNet：a style retention network）。在训练期间，SRNet将一对图像（Is，It）作为输入，其中Is是源风格图像，It是目标文本图像。输出（（Tsk，Tt），Tb，Tf），其中Tsk为目标文本骨架，Tt是和Is相同文本风格的前景图像，Tb是Is的背景图像，Tf是最终的目标文本图像。为了有效应对sec1中提到的两大挑战，作者将SRNet分解为三个更简单且可学习的子网络：1）文本转换模块，2）背景修复模块，3）融合模块。如图2所示，具体地说，源图像的文本风格通过骨架引导学习机制转移到目标文本，旨在保留文本语义信息（第3.1节）。同时学习擦除或修复任务来填充背景信息（第3.2节）。最后，传输的目标图像和完成的背景通过文本融合网络进行融合，生成编译后的图像（第3.3节）。

在这里插入图片描述

3.1文本转换模块
作者将目标文本渲染成一个标准图像，并将字体位置固定，背景像素值设置为127，然后将渲染图像表示为目标文本图像It。文本转换模块（图2中蓝色部分）将源图像Ts和目标图片It作为输入，目的是从源图像Is中提取前景风格并将其传输到目标文本图像中It。特别的，前景风格包括文本风格，其中包括字体、颜色、几何变形等等。因此，文本转换模块输出具有目标文本的语义图像Ot和源图像的文本风格的图像Osk，在这项工作中采用encode-decode FCN。对于encode，源图像Is有3个下采样卷积层和4个residual blocks，输入的文本图像It也是由相同的架构编码，然后对两个图像生成的特征图进行连接，对于解码（decode），有三个上采样转置卷积层和1个卷积快来生成输出Ot，而且，作者还引入骨架引导学习机制来生成更健壮的文本。作者使用Gt来表示文本转换模块，输出可以表示为：

在这里插入图片描述

骨架引导学习机制。与其他的自然物体不同，人类主要根据文本的骨架或字形来区分不同的文本。从源风格图像Is转换传输文本风格后，还需要在目标图片It中维护文本骨架。为了实现这一点，作者引入了骨架引导学习机制。具体来说，作者添加由3个上采样层和1个卷积层组成的一个skeleton response block，然后添加一个sigmoid激活函数来预测单通道骨架图，然后沿着depth axis连接骨架热图和解码器输出。作者使用dice loss【引用论文18】代替交叉熵损失来检测骨架响应图（skeleton response map）的重建质量，因为发现它可以产生更精确的结果。骨架损失函数如下：

在这里插入图片描述
其中N是像素数，Tsk是骨架真实值，Osk是骨架模块的输出图。

作者进一步采用L1损失来监督文本转换模块的输出。结合骨架损失函数，文本转换模块的总损失为：

在这里插入图片描述

这里面Tt是文本转换模块的真实值，a是正则化参数，论文里设置为1。

3.2背景修复模块
这个模块的主要目的是通过word-level擦除任务来获取背景。如图2的绿色部分所示，该模块仅将源图像Is作为输入，并输出背景图像Ob，其中所有文本笔划像素被擦除并用适当的纹理填充。输入图像由3个步长为2的下采样卷积层编码，并跟随4个residual blocks，
然后解码器通过3个上采样卷积层生成具有原始大小的输出图像。作者在每一层之后使用ReLU激活函数，而在输出层使用tanh函数。作者将背景生成器表示为GB，为了使视觉效果更加逼真，作者需要尽可能的恢复背景纹理。U-Net【引用论文23】提出在镜像层（mirrored layers）之间添加跳跃连接，在解决目标分割和image-to-image转换任务时，该方法被证明是非常有效和稳健的。在这里，作者在上采样过程中采用了这种机制，将相同大小的先前编码特征图连接起来以保留更丰富的纹理信息。这有助于恢复在下采样过程中丢失的背景信息。
与其他全文图像擦除方法不同【引用论文21，35】，作者的方法针对word-level图像修复任务。在word-level图像中出现的text在尺寸（scale）上趋于相对标准化，因此作者的网络结构具有简单整洁的设计。受到【引用论文35】的启发，增加对抗性学习，以学习更真实的外观。背景图片鉴别器DB的详细结构描述在3.4节。背景修复模块的整体损失函数公式如下：

在这里插入图片描述
这里面Tb是背景真值，该公式由对抗损失函数和L1损失函数组合而成，在实验里β设置为10.

3.3融合模块
融合模块将目标文本图像与背景纹理信息和谐融合，合成编辑后的场景文本图像。如图2中橙色部分所示，融合模块也遵循编码器-解码器（encode-decode）FCN框架。作者将文本转换模块生成的前景图像送入编码器，编码器由三个下采样卷积层和residual blocks组成。
接下来，一个具有三个上采样转置卷积层和卷积层的解码器生成最终编辑图像。值得注意的是，在融合解码器的上采样阶段，作者将背景修复模块的解码特征映射连接到具有相同分辨率的相应特征图。这样，融合网络输出的图像在背景细节上被基本恢复；文本对象和背景融合良好，同时在外观上实现了合成真实感。作者使用GF表示融合生成器，Of表示输出。此外，这里还增加了对抗损失，其中对应的鉴别器DF的详细结构在3.4节介绍。综上所述，作者可以将融合模块的优化目标表述为：

在这里插入图片描述
这里Tf是已编辑场景图像的真值，θ = 10用老保持对抗性损失和L1损失之间的平衡。

VGG-Loss。为了减少失真并生成更逼真的图像，作者将VGG损失引入融合模块，其中包括perceptual Loss（感知损失）【引用论文13】和style Loss（风格损失）【引用论文6】。顾名思义，感知损失Lper通过定义预训练网络的activation maps之间的距离度量（作者采用在ImageNet【引用论文25】上预训练VGG-19【引用论文28】的模型），对感知上与标签不相似的结果进行惩罚（penalizes）。同时风格损失Lstyle计算风格差异。VGG-Loss损失函数Lvgg定义如下：
在这里插入图片描述

其中是VGG-19模型的relu1-1、relu2-1、relu3-1、relu4-1、relu5-1层的activation图；Mi是通过第i层获得特征图的元素尺寸（element size）；G是Gram矩阵G（F）=FFT∈Rn*m；
权重θ2和θ3分别设置为1和500，融合模型的整体训练目标是：
在这里插入图片描述

3.4判别器
作者的网络里使用了两个与PatchGAN【引用论文11】结构相同的判别器。它们由五个卷积层组成，将原始尺寸减小到1/16.背景修复模块中判别器DB连接Is与Ob或者Tb，以判断擦除结果Ob与目标背景Tb是否相似。而融合模块中的判别器DF连接It和Of或者Tf，用于测量最终输出Of和真值图像Tf之间的一致性。

3.5训练和推理
在训练阶段，整个网络以端到端的方式进行训练，模型的总体损失为：
在这里插入图片描述

按照GAN的训练过程，作者交替训练生成器和判别器。作者合成了除了文本之外风格类似的图像对（合成一对一对类似的图像）作为作者的训练数据。此外，利用文本笔划分割掩码（masks）可以获得其前景图像、文本骨架图像和背景图像。生成器在Tsk、Tt、Tb、Tf的监督下以Is和It作为输入，输出是文本替换后的图像Ot。对于对抗训练，（Is，Ob）和（Is，Tb）作为DB的输入，以保持背景的一致性。（It，Of）和（It，Tf）作为DF的输入，以确保结果的准确性。
在推理阶段，给定标准化文本图像和风格图像，生成器可以输出编辑图像和风格图像的擦除结果。对于整个图像，作者根据边界框标注剪裁出目标物体，并将其输入到网络中，然后将结果粘贴到原始位置以获得整个图像的可视化效果。

4、实验
作者在图3中给出一些结果，已验证作者的模型具有很强的场景文本编辑能力，并将作者的方法与其他基于神经网络的方法进行了比较，以证明作者方法的有效性。还进行了消融实验以评估作者自己的方法。
在这里插入图片描述

4.1、数据集
论文中用于实验的数据集介绍如下：
合成数据：作者改进了文本合成技术【引用论文8】，合成一对样式相同但是文本不同的数据，主要思想是随机选择字体、颜色、变形参数生成风格文本，然后在背景图像上渲染，同时可以得到相应的背景，前景文本和图像骨架化后的骨架【引用论文36】作为真值（如图4）.在作者的实验中，作者将文本图像的高度调整为64，并保持相同的纵横比。训练集共包含50000个图像，测试集包含500个图像。
真实的自然场景数据集：ICDAR2013【引用论文14】是2013年国际竞争文件分析和识别组织的自然场景文本数据集。这个数据集集中于自然场景中水平英文文本的检测和识别，包含229张训练图片和233张测试图片。每个图像中的文本都有一个详细的标签，所有文本都用水平候选框标注。每个图像都有一个或多个文本框。我们根据边界框裁剪文本区域，并将裁剪后的图像输入网络，然后将结果粘贴回其原始位置。注意，作者只在合成数据上训练模型，所有的真实数据仅用于测试。

4.2、细节补充
作者的网络架构基于pix2pix【引用论文11】。采用Adam【引用论文15】优化器的模型进行训练，β1=0.5，β2=0.999，直到输出在训练阶段趋于稳定。学习率初始值设置为210-4，等训练30epochs之后改为210-6.α=θ2=1，β=θ1=10，θ3=500，以使每个部分的损失函数梯度范数在反向传播中接近。作者在生成器和判别器中使用spectral normalization【引用论文20】，并仅在生成器中使用批归一化【batch normalization 引用论文10】。batch size设置为8，输入图像的大小调整为W*64，纵横比保持不变。在训练中，随机获得批量数据，并将图像宽度调整为平均宽度，在测试时，作者可以输入可变宽度的图像以获得所需的结果。模型在一张显卡上面需要训练8h。

4.3、评估指标
作者采用图像生成中常用的指标来评估模型，包括：1）MSE，就是L2损失函数。2）PSNR，
计算峰值信噪比。3）SSIM【引用论文30】，计算两幅图像之间的平均结构相似性指数。较低的L2损失函数或者较高的PSNR、SSIM意味着结果离真值很接近。作者仅根据合成测试数据计算上述指标，因为在真实数据中没有成对的数据。在真实数据中，作者计算识别精度来评估生成结果的质量。由于网络输入的是裁剪图像，作者只计算裁剪区域的这些度量。此外，真实数据集中还使用视觉评估来定性比较各种方法的性能。
采用的文本识别模型是基于注意力的文本识别器【引用论文27】，其主干网络被类似于VGG的模型所取代。训练过程基于Jaderberg-8M合成数据【引用论文12】和ICDAR2013数据集，并通过随机旋转和随机调整X轴的大小来增强学习。每个文本编辑模型根据ICDAR2013测试集里面的1000张图像作为各自的测试集，识别准确度定义如下：

在这里插入图片描述

其中y是指第n个样本的真值，y’是相关的预测结果，N是指整个测试集中的样本数。

4.4消融实验
4.5和以往的工作相比
4.6跨语言编辑
作者对跨语言文本编辑任务进行了实验，以检验模型的泛华能力。该应用程序可以用于视觉翻译和AR翻译，以改善视觉体验。考虑到拉丁字体到非拉丁字体没有很好的映射关系，为了方便起见，作者只完成了从英语到汉语的翻译任务。在训练阶段，作者采用与4.1节中提到的相同的文本图像合成方法来生成大量的训练数据。值的注意的是，作者通过大小、厚度、倾斜度等方面分析笔划相似性，将所有英文字体映射到几种常见的中文字体。作者在ICDAR2013测试集上对其进行评估，并使用翻译结果作为输入文本来检查模型的泛化能力。结果如图7，从图中可以看出，即使输出是汉字，颜色，几何变形和背景纹理也可以很好的保持，并且字符的结构与输入文本相同。这些结果表明作者提出方法的泛化性能。
在这里插入图片描述

4.7、文本信息隐藏
提取背景信息的子任务也可以输出已擦除的图像。与两种文本擦除方法不同【引用论文21,35】，在许多中情况下，不需要删除整个图像中所有的文本，更实际的做法是擦除图像中的部分文本。作者的目标是word-level文本擦除，他可以在需要擦除的图片中自由选择文本区域。如图8所示，可以看到原始文本的位置被适当的纹理填充。表2显示以擦除图像的检测结果。由于方法的特殊性，作者删除了裁剪后的图像，并将其粘贴回去与其他方法进行对比。
在这里插入图片描述

4.8失败的案例
如图9显示了作者方法的一些失败的案例，可以看出尽管前景文本已成功传输，但原始文本的阴影仍然保留在输出图像中。在中间的一行图像中，作者的模型无法提取具有如此复杂的空间结构的文本样式，并且背景擦除的结果也是次优的。在图像的底部，文本周围的边界不会与文本一起传递。作者将这些失败案例归结于这些样本在训练数据中的不足，因此作者假设通过增加具有更多字体效果的训练来减少这个情况的发生。
在这里插入图片描述

5.总结和未来的工作
这篇论文提出了一种用于场景编辑任务的端到端网络，他可以在保持原始样式的同时替换场景文本图像中的文本。作者实现该功能主要分为三个步骤：1）提取前景文本样式，借助骨架转换为输入文本；2）用合适的纹理擦除风格图像，得到背景图像；3）将传输的文本与删除的背景合并。据作者所知，这边论文时候第一个在word-level编辑文本图像的工作。
在ICDAR2013数据集上，作者的方法在主观视觉真实性和客观定量分数方面都取得了显著的效果。同时，网络还具备对跨语言情景进行文本删除和编辑的能力，通过全面的研究，作者的网络有效性得到了验证。
在未来，作者希望解决更复杂场景中的文本编辑问题，同时使模型更易于使用。作者将在更多语言之间编辑文本，以充分利用所提出模型的能力。作者将尝试提出新的评估指标来正确评估文本编辑的质量。

一蓑烟雨渡平生

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
16
评论
Editing Text in the Wild

代码已跑通，作者是用5w数据集训练，目前我是用1w数据集训练，效果上感觉也还行。问题：训练过程中Loss很高，需要调参。论文由华中科技大学学生在百度CV部门实习发布的一篇论文。摘要：在这篇论文中，作者的兴趣方向是编辑自然场景图像中的文本，其目的就是用另一个词替换或者修改源图像中的一个词，同时保持其真实外观。这是一项很有挑战的任务，为了防止编辑后的图像在视觉上与源图像无法区分，源图像背景和文本风格都需要保留。作者提出一个（end-to-end trainable style retention ne
复制链接

扫一扫