【附源码】A Text Attention Network forSpatial Deformation Robust Scene Text Image Super-resolution（TATT）

lct不吃香菜

已于 2024-02-19 22:49:36 修改

阅读量2.2k

点赞数

分类专栏：文章阅读文章标签：深度学习人工智能超分辨率重建

于 2022-10-08 16:14:01 首次发布

本文链接：https://blog.csdn.net/m0_46507285/article/details/127204946

版权

文章阅读专栏收录该内容

3 篇文章 1 订阅

订阅专栏

paper: A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution

github: https://github.com/mjq11302010044/tatt

源代码过于冗余，此处为代码框架优化和复现GitHub - lct1997/BasicSTISR

Abstract

场景文本图像超分辨率旨在提高低分辨率图像中文本的分辨率和可读性。尽管深卷积神经网络（CNN）已经取得了显著的改进，但对于空间变形文本，尤其是旋转文本和曲线形文本，重建高分辨率图像仍然很困难。

这是因为当前基于CNN的方法采用基于位置的操作，这对于处理变形引起的变化无效。在本文中，我们提出了一个基于CNN的文本关注网络（TATT）来解决这个问题。文本识别模块首先提取文本的语义作为文本的先验信息。然后，我们设计了一个新的基于Transformer的模块，该模块利用全局注意机制，在文本重建之前发挥文本的语义指导作用。此外，我们提出了一种文本结构一致性损失，通过将结构一致性强加于规则文本和变形文本的重建，来改善视觉外观。在基准TextZoom数据集上的实验表明，提出的TATT不仅在PSNR/SSIM度量方面达到了SOTA的性能，而且在下游文本识别任务中显著提高了识别精度，特别是对于具有多方向和曲线形状的文本实例。

Introduction

图像中的文本是我们日常生活中重要的信息来源，可以针对不同的目的进行提取和解释。然而，场景文本图像在成像过程中经常会遇到各种质量下降，导致分辨率低和结构模糊。

这个问题严重影响了下游高级识别任务的性能，包括场景文本检测[23，46]、光学字符识别（OCR）和场景文本识别[21，31，32]。因此，有必要使用超分辨率来提高场景文本图像的分辨率以及视觉质量。在过去几年中，为了提高文本图像的图像质量，开发了许多场景文本图像超分辨率（STISR）方法，基于深度学习的方法取得了显著进展[4,9,35,36,41]。通过使用退化文本图像对和原始文本图像对的数据集，可以训练深度卷积神经网络（CNN）来超分辨文本图像。CNN具有很强的表达能力，可以从数据中学习各种先验知识，并表现出很强的性能。最近的进展是TPGSR模型[22]，其中文本的语义首先被识别为先验信息，然后用于指导文本重建过程。TPGSR利用高层次的先验信息，能够以令人信服的视觉质量恢复语义正确的文本图像。

尽管取得了很大的进步，但许多基于CNN的方法在处理空间变形的文本图像（包括旋转和弯曲的文本图像）方面仍然存在困难。

当前的代表性方法，包括TSRN[35]和TPGSR[22]，产生了语义错误字符的模糊文本。这是因为当前工程中的架构主要采用基于位置的操作，如卷积，这对于捕获变形引起的大位置变化无效。特别是，TPGSR模型采用了一种简单的方法来利用文本先验：它仅仅通过卷积将文本先验与图像特征合并。这种安排只能让文本先验与图像特征在较小的局部范围内进行交互，从而限制了文本先验对文本重建过程的影响。根据这一观察结果，应该使用一些基于全局性的操作（例如，注意力）来捕获文本图像中的长距离相关性，以获得更好的STISR性能。

Contributions

我们提出了一种新的方法，通过使用CNN和Transformer将文本先验与空间变形文本图像对齐，以更好地恢复SR。
我们提出了一种文本结构一致性损失，以增强从空间变形的低分辨率文本图像恢复文本结构的鲁棒性。
我们提出的模型不仅在各种评估指标的TextZoom数据集上实现了最先进的性能，而且在恢复方向扭曲和曲线形状的低分辨率文本图像方面表现出出色的泛化性能。

Related Works

Scene Text Image Super Resolution (STISR) 场景文本图像超分辨率（STISR）

与用于自然场景图像的通用SISR不同，STISR侧重于场景文本图像。它的目标不仅是提高文本图像的分辨率，还可以重建语义正确的文本，以利于下游识别任务。早期的方法直接采用SISR的CNN架构来执行STISR任务。在[9]中，Dong等人将SRCNN[8]扩展到文本图像，并在2015年ICDAR竞赛中取得了最佳成绩[27]。PlugNet[25]采用可插拔的超分辨率单元来处理特征域中的LR图像。TextSR[36]利用文本感知损失生成所需的HR图像，以利于文本识别。

为了解决现实场景中的STISR问题，Wang等人[35]构建了一个现实场景中STISR图像数据集，即TextZoom，其中LR和HR文本图像对是从现实场景中SISR数据集裁剪出来的[2，42]。他们还建议TSRN[35]使用序列残差块来利用内部特征中的语义信息。SCGAN[39]使用多类GAN损失来监督STISR模型，以获得更具感性的人脸和文本图像。此外，Quan等人[29]提出了一种级联模型，用于在高频域和图像域协同恢复模糊文本图像。Chen等人[4]和Zhao等人[45]通过自关注图像特征和关注通道，增强了网络块结构，以提高STISR性能。

Scene Text Recognition 场景文本识别

场景文本识别的目的是从输入图像中提取文本内容。一些早期方法倾向于先识别每个字符，然后解释整个单词[12，14]，而另一些方法则将文本图像视为一个整体，并执行单词级分类[13]。将文本识别视为图像到序列问题，CRNN[31]提取图像特征并使用递归神经网络对语义信息建模。使用CTC[10]损失对其进行训练，使预测序列与目标序列对齐。最近，基于注意的方法取得了很大的进展，因为在提取文本时能够抵抗文本图像的形状变化[6,7]。尽管最近的方法取得了很好的性能，但仍然很难识别低分辨率图像中的文本。因此，本文旨在解决高分辨率文本图像的复原问题，以更好地进行识别。

Methodology

framework

通过计算图像的平均灰度简单生成二进制掩码（用于图像对比度拉伸）。
二进制掩码与RGB通道连接起来作为RGBM 4通道输入。
路径一：输入图像经过TPG处理，预测识别概率序列作为文本先验text prior，text prior是由大小为|A|的类别概率向量组成的l长度序列。A表示由“0”到“9”、“A”到“z”和一个空白类（总共37个）组成的字符集。
路径二：输入图像经过9X9的卷积层得到特征图image feature。
两条路径合并输入到TPI中。TPI计算文本先验text prior和图像特征image feature之间的相关性，记为TP map，并将text prior中的语义指导分配给空间域中的相应位置，以指导最终SR文本恢复。
最后，将TP map和图像特征image feature传递到重建模块中。本模块包括5个文本优先引导块（TPGBs），逐步融合TP map和image feature，以及一个最终的像素混洗层，以提高分辨率。5个TPGB中的每一个首先通过元素相加合并TP map和image feature，然后是顺序递归块（SRB），以重建高分辨率图像特征。该模块的输出是超分辨率（SR）文本图像。

TP Interpreter

在所提出的体系结构中，关键部分在于TPI的设计。TPI的目的是将text prior解释为图像特征image feature，从而将语义引导的影响作用于图像特征域中的相关空间位置。

一个直观的想法是将text prior放大为image feature的形状，然后通过卷积将其合并。由于卷积运算的有效范围很小，因此无法将text prior的语义指定给image feature中的远距离空间位置，特别是在空间变形文本的情况下。因此，我们转而设计一个基于Transformer的TPI，该解释器具有注意机制，以增强text prior和图像特征image feature之间的全局相关性。

如上图所示，提出的TPI由编码器和解码器组成。编码器通过在text prior中每个字符的语义之间进行关联，对text prior进行编码，并输出上下文增强的特征fE。解码器在特征fE和fI之间进行交叉关注，以将语义信息解释为图像特征。

编码器。编码器将text prior作为输入，并将其投影到C通道以匹配图像特征通道。由于输入文本在编码器中是并行处理的，因此模型不知道TP中的语义顺序。因此，我们在将其输入到编码器之前，通过将固定位置编码（FPE）以元素方式添加到text prior来对位置进行编码。注意，我们在本文中采用正弦位置编码[34]作为FPE。在对位置进行编码后，将之前的文本传递到编码器模块。编码器有一个多头自我注意（MSA）层和一个前馈网络（FFN）层[34]。在当前层和前一层之间部署跳过连接，以实现剩余学习。MSA层在text prior中的语义元素之间执行全局关联，从而产生上下文增强的TP功能fE∈ Rl×c，用于以后的计算。

解码器。解码器模块接受编码器模块fE和图像特征fI的输出，以执行全局交叉关注。与编码器中的设置类似，我们首先在fI中添加位置编码以合并位置信息。我们设计了一种递归位置编码（RPE），以更好地编码图像特征在水平方向上的顺序依赖所包含的偏差，并更好地帮助模型在随后的交叉注意中查找文本语义特征[20，33]。在RPE中，我们保持与图像特征形状相同的可学习参数，并在水平方向上编码序列相关性，以帮助模型更好地学习相邻上下文。

通过使用MCA操作，文本先验fE通过将语义域中的每个元素与空间域中的位置相关联，可以有效地与图像特征f′I交互。因此，空间域中的语义有意义区域在TP map中得到加强，可用于调整图像特征以进行语义特定的文本重建。

Text Structure Consistency Loss

虽然所提出的TA TT网络可以获得良好的性能，但重建的文本图像仍需要进行一些细化以改善视觉外观。这是因为对于CNN模型来说，要表示变形的文本特征有点困难，就像对常规文本特征一样，而且重建的文本图像具有较弱的字符结构，对比度相对较低。作为补救措施，我们模拟变形文本图像，并设计文本结构一致性（TSC）损失来训练所提出的TA TT网络。

我们考虑最小化三个图像的距离，即变形版本的SR文本图像DF（Y）、变形版本的LR文本图像F（DY）和变形地面真相D（X），其中D表示随机变形1。通过增加三个项目之间的相似性，我们可以鼓励CNN模型减少遇到空间变形时的性能下降。建议的TSC损失首先测量上述三元组之间的结构相似性。为此，我们将结构相似性指数度量（SSIM）[38]扩展为三重SSIM（TSSIM），描述如下

其中，µx、µy、µz和σx、σy、σz分别代表平均值和三元组x、y和z的标准偏差。

σxy、σyz和σxz分别表示（x，y）、（y，z）和（x，z）之间的相关系数。C1和C2是小常数，以避免分值接近零时的不稳定性。

最后，TSC损失 $L_{TSC}$ 用于测量 $DF(Y)$ 、 $F(DY)$ 和 $DX$ 之间的相互结构差异：

$L_{TSC}(X,Y;D) = 1 - TTSIM(DF(Y),F(DY),DX)$

总体损失函数。在训练中，总体损失函数包括超分辨率损失 $L_{SR}$ 、文本先验损失 $L_{TP}$ 和提出的TSC损失 $L_{TSC}$ 。SR损失 $L_{SR}$ 测量我们的SR输出F（Y）和GT真实HR图像X之间的差异。我们采用L2范数进行此计算。TP损失测量了从LR图像中提取的文本和从地面真相中提取的文字之间的L1范数和KL发散度。与TSC损耗 $L_{TSC}$ 一起，总体损耗函数描述如下：

$L = L_{SR} + \alpha L_{TP} + \beta L_{TSC}$

Experiments

Datasets

TextZoom。TextZoom[35]拥有21740对LR-HR文本图像，这些文本图像是在真实场景中通过改变相机的焦距收集的，其中17367个样本用于训练。其余样本根据相机焦距分为三个子集进行测试，即简单样本（1619个样本）、中等样本（1411个样本）和硬样本（1343个样本）。文本标签在TextZoom中提供。

Scene Text Recognition Datasets。除了在TextZoom中进行的实验外，我们还采用ICDAR2015、CUTE80和SVTP[28]来评估我们的模型在恢复空间变形的LR文本图像方面的鲁棒性。ICDAR2015有2077幅场景文本图像用于测试。大多数文本图像都有低质量和透视变形的问题，这使得识别非常困难。CUTE80也在野外采集。测试集共有288个样本。SVTP中的示例大多是曲线形文本。测试集的总大小为649。除了在原始样本上评估我们的模型外，我们还进一步降低了图像质量，以测试模型在不可预测的恶劣条件下的泛化能力。

Ablation Studies

用于将TP序列与图像特征对齐和引导的模块。D和PS分别指对齐操作“反卷积”和“像素混洗”。

A和S分别指元素相加层和SFT层的制导融合操作。TPI是TP解释器。

Comparison with State-of-the-Arts

Conclusion and Discussions

本文提出了一种用于单文本图像超分辨率的文本标记网络。我们利用文本先验信息（从文本图像中提取的语义信息）来指导文本图像重建过程。

为了解决空间变形文本恢复问题，我们开发了一个基于Transformer的模块，称为TPI，用于将语义域中的文本先验与图像特征域中的字符区域进行全局关联。此外，我们提出了一种文本结构一致性损失，通过在恢复的规则文本和变形文本之间施加结构一致性来改进文本结构。我们的模型不仅在文本超分辨率任务中，而且在下游文本识别任务中取得了SOTA性能。

尽管记录了SOTA结果，但提出的TATT网络在恢复极其模糊的文本方面存在局限性，如图7所示。在这种情况下，文本中的字符笔划混合在一起，很难分离。此外，由于我们的模型采用了全局关注，我们的TATT网络的计算复杂性随着图像中文本的长度呈指数级增长。它有望降低TATT的计算复杂度，提高运行时效率，这将是我们未来的工作。