论文笔记：Self-Supervised Text Erasing with Controllable Image Synthesis

YajunLin

已于 2022-08-26 17:46:40 修改

阅读量1.4k

点赞数 7

分类专栏：论文阅读笔记

于 2022-08-20 09:37:32 首次发布

本文链接：https://blog.csdn.net/YajunLin/article/details/126435602

版权

计算机视觉深度学习人工智能

论文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

按照标题来进行逻辑梳理：

首先是text erasing文本擦除，为何要text erasing? poster text海报文本，复原产品图像，scene text场景文本，可隐私保护

其次是self-supervised, 自监督，什么叫自监督？跟有监督和无监督有什么区别？一般意义上的有监督是有人为标注的监督信号Igt（Image ground true），在文本擦除这里应该是人类专家使用PS精细擦除文本后的图像。自监督没有人为标注的监督信号，自监督是在数据上自己构造的监督信号，所以也不同于完全没有监督信号的无监督，所以叫做自监督。为何要self-supervised？传统的有监督方法可以达到很好的文本擦除效果，但是依赖于大量的数据标注，非常的昂贵而低效。所以才采用自监督的方式。

Controllable image synthesis可控图像合成：自监督的方式之前也不是没有人用过，但是他们的自监督和本文的自监督不同，自监督都需要使用合成文本图像作为训练集，但是之前的论文合成文本图像有的采用了在无文本图像上直接生成文本来作为训练集的方式，这种方式会导致数据集偏移，就是训练集和测试集的分布不同，效果差，可能是训练集用的是本身没有文本的图像，而测试集用的是本身有文本的图像？有的也是在本身有文本的图像上面合成新文本的方式来合成文本图像，但是之前的方式合成的文本和真实图像的文本风格差异很大例如本论文图1中SynthText，擦除效果不好。为了合成跟真实图像文本风格近似的文本，本文设置了一个可控图像合成模块，可以模仿真实文本风格生成文本图像。这个感知真实图像风格的功能是通过一个策略网络实现的。

Self-Supervised Text Erasing-STE模型结构：

该模型流程图如图2，左边是可控图像合成模块，原图通过风格感知图像合成函数，生成了一个合成文本图像Isyn，该合成文本风格与原文本风格相似，同时也生成了合成文本的掩码图Msyn，掩码的位置是合成文本的位置，暂时不清楚掩码的具体作用，Isyn和I作为训练对，对擦除网络进行训练，进入文本擦除模块，进行两阶段的文本擦除，通过三联擦除损失，粗擦除和精优化，最后产生完全擦除文本的图像Ir。最后又结合之前的掩码生成了Ipred，Ipred又作用于风格感知策略网络，我不太清楚这一步的原理。Ipred可能的作用是与I一同进行对抗训练，判别器来判断这图像是否被擦除过文本，还是原图？如果被判断出来是擦除过，就说明擦除效果不够，继续优化擦除效果，如果没有被判断出来是擦除过，那么就优化判别网络？互相对抗优化，直到最后擦除后的图像也不能被判断为被擦除过文本的图像，那么擦除的效果就很好了，这就有一个对抗损失。

在两个数据集PosterErase (上两行) 、 SCUT-Enstext (下两行)中进行了实验，上两行是海报场景，60000张训练图，400张测试图，750×513，下两行是真实场景图，2748张训练，813张测试，还采用了来自ICDAR2019 Art数据集的10166个没有注释的场景文本图像作为辅助信息。所有的图像清晰，大小调整为512×512。

可以看到与EraseNet，DANN，相比，本论文的模型擦除效果更好。Label图像是由人类专家使用ps制作。

这副图比较了两种数据集中文字风格元素的不同，choice越小表明该指标的变化越少。

自己梳理的论文模型结构：

论文部分翻译笔记：

文本擦除一开始是用有监督的方式，EnsNet,MTRNet,EraseNet,其中最后一个EraseNet效果顶尖，但是有监督的模型终究是需要大量标注图像进行训练，昂贵低效。于是有了合成文本图像用于训练的方式。合成文本图像用于训练的话，对于如何合成文本图像又有了分支，如果采用均匀分布进行采样合成，那么就会导致合成的文本风格跟原来的风格差异大，就会影响擦除效果，如果训练用合成的，测试也用合成的，那么会产生数据偏移，测试效果不好，为了解决合成文本风格的问题又出现了2种方法，GAN网络和风格对齐，然而这两种方法对于文本风格太多样的情况，都不太适用，对不齐，而且GAN会是使用大量的计算还会在遇到新分布的时候产生许多伪影。所以就出现了自监督文本擦除网络STE，这个模型分为两部分，第一部分是合成模块，用了以前的一些工作和MSER还采用了策略网络，第二部分是擦除模块，用的就是EraseNet中的coarse-to-fine两步走，先擦除文本像素，再用合适的纹理去填充。但是refine微调网络对于填充出来的纹理不够精细和真实，显得很模糊，特别是在背景复杂的时候。所以就提出了三联擦除损失triplet erasure loss解决擦除部分纹理模糊的问题。合成模块和擦除模块在训练的时候互相共同优化。最后STE的效果就比有监督的效果还更好，在海报和真实场景都是效果更好。

领域自适应：1.将原领域与目标领域特征空间进行对齐；2.将两个领域中的输入图像进行像素水平的对齐。但是当方差很大时，这两种对齐方式效果下降。

自监督文本擦除：目标是训练一个网络G，该网络可以很好地擦除真实世界中的文本。如果我们有一个带标签的数据集，那么只需要通过最优化去训练该网络即可。但是本文假设我们没有任何带标签的图像，只有无标签图像集I，为了训练G，我们需要通过I合成一个带标签的图像集Isyn（通过可控的合成模块）。再利用合成的Isyn和I对G进行训练。最后用目标领域保留的一个带标签的测试集（与I无交集也不用于训练）对G进行评估。应该是带标签的真实图像，也即人类专家使用PS进行文本擦除的图像。

图2给了STE模型的图形框架，那么首先真实世界图像I（自带文本，而非无文本图像）会经过一个可以控制生成文本风格s的文本图像生成函数F，生成的图像就是Isyn，与I作为训练集数据对进行训练。I为真值图像。为了使生成的文本与真实图像中的文本风格对齐一致，使用了一个策略网络A，A里有LSTM（长短期记忆神经网络）且由环境奖励进行一个优化，环境奖励包括了文本困难程度奖励Rdiff和文本真实程度奖励Rreal。

文本擦除模块是一个 2阶段的 coarse-to-fine网络EraseNet基础上做的。一个网络包含了粗擦除和精擦除的部分。在生成合成图像Isyn的时候，会有一个Msyn掩码？掩码怎么来的？会指示合成的区域，粗网络会粗略地预测Ic，精网络会生成更详细细节的图像Ir，最后Ipred是由Ir和Isyn在Msyn基础上共同组成的，Ipred会用于损失计算。但是精网络不能生成细节，因为粗网络恢复了一些难以区分的内容？所以提出了三联擦除损失，triplet erasure loss，TEL来保证精网络的结果比粗网络的结果Ic内容更丰富，更接近真值I。因为目标域的标签是没有给的，所以擦除会有模糊，即使采用粗精两阶段擦除也是，可能是由于当前的损失loss没有区分这两个阶段的结果，混为一谈了。受对比学习启发，提出了三联擦除损失TEL。可以看见I，Ir，Ic的关系，变形可见，该损失使得Ir向真值I靠拢，而远离模糊的输出Ic，使得Ir的结果更为精细。

合成和擦除模块以端到端的方式进行联合训练，从而达到更好的擦除学习。模型G使用梯度下降的方式进行优化，策略网络A使用强化学习进行优化。adversarial loss , reconstruction loss , perceptual loss , style loss, mask refine loss , and triplet erasure loss。

总的损失函数如下。

具有风格意识的合成函数：对于原图I，使用文本检测识别的方法去获取文本的信息——位置、内容、空白区域等。然后生成风格为s的文本并且放置在空白区域（无文本区域）。与以往的有限的生成文本自定义机制不同，我们提出了一个简单但有效的复制机制来丰富生成能力。以往的自定义机制根据文本风格的影响把风格分为三大类：外观单元、几何单元、结构单元。通过筛选每个单元中的操作，确定风格参数s，并在图像上呈现相应的图形？也即符合该风格参数的文本图形？虽然定制机制可以产生很多文本风格，但是它与目标风格却不相近，而且受限于预定义参数空间（预定义里有红色就有红色，没有红色也生成不了红色）。例如图1中b的第一行，自然光下的文本就不能通过定制机制合成（预定义空间没有自然光字符这种风格样式）。为了解决这个问题，扩大了自定义机制所使用的空间，使其可以匹配各种不同的场景下巨大的差异，并进一步提供了复制机制。

复制机制：通过复制原文本合成具有目标分布的样本。采用了MSER（Maximally Stable Extremal Regions）方法（风格迁移？）。使用MSER提取文本像素，MSER方法的优点是保持目标文本模式，不受引擎空间的限制，成功弥补自定义机制的不足。然而，复制机制也可能风格结构提取不足，例如复杂的艺术形式边界阴影等。所以需要平衡这两种机制的优缺点。我们的合成函数就包含了这两种机制，在几个方面更优异：1、F函数快速自动合成样本2、合成的数据自动模拟目标风格（复制机制）3、F函数可以合成广泛的文本图像，利用这两种互补机制。I和Isyn将作为训练对输入擦除模块进行训练。

可控合成模块：

搜索空间：综合函数提供了各种样式，所有这些样式都构成了策略网络的搜索空间。

通过强化优化风格：策略网络的目标是在巨大的搜索空间中为每一个图像找到一个合适的合成风格。是一个典型的离散优化问题。所以将这个选择的问题构建为一个强化学习问题。

策略网络通过LSTM实现，每个合成过程，策略网络会观察输入图像I作为状态，并预测每个元素对应的离散参数的动作。e1?e2?e3?...策略网络的目标是最大化奖励函数。奖励设置：生成风格s应当1、真实且符合目标分布2、对当前的模型有挑战性，并提供信息梯度（也即模型可以通过该s学习到东西？）3、不应该太难。所以设计了如下奖励：1、风格真实奖励：为了获取目标分布设置了文本判别器指导数据合成。训练阶段判别器Dtext用于区分合成文本和真实文本，有真实文本的区域为1，其他区域均为0.在奖励计算阶段，合成文本区域的预测越接近1，奖励越大。2、文本困难奖励：受对抗训练启发，用更难更多样的合成文本来增大训练损失。增加对数据分布的鲁棒性。利用上述对策略网络进行强化更新，实际中，我们每一定数量的模型迭代后更新一次策略网络，使得时间开销可以忽略不计。