谈一谈场景文本图片的超分辨

引言

文本图像的超分辨任务做的不是很多,有专门针对文本识别的也有针对文本检测的,总而言之,带有文本序列的图像和在imangeNet里的图像是不一样的,那我们来仔细看一看文本图像大家都是怎么做的

TextSR: Content-Aware Text Super-Resolution Guided by Recognition(ICML2019)

动机

  1. 现在文本识别技术已经在干净文本图像上取得了令人印象深刻的效果。然而,在识别低分辨率或相机抖动引起的模糊文本时,它们的性能急剧下降。识别模糊文本的主要困难在于缺乏关于它们的细节信息。超分辨是解决这个问题的一个合理方法。然而,传统的超分辨率方法是以重建自然图像的细节纹理为目的,不适用于模糊文本。与自然图像的纹理相比,场景文本具有任意的姿态、光照和模糊,超分辨率文本图像具有更大的挑战性。因此,我们需要一个内容感知的文本超分辨率网络来生成清晰、清晰、可识别的文本图像进行识别。
  2. 感受损失广泛应用于超分辨率和其他低层次视觉任务中。感知损失采用预先训练的vgg网络,计算超分辨率图像与原始图像特征图的相似度。感知损失可以使网络理解图像的一般内容。

贡献

•引入了一种超分辨率方法来促进场景文本的识别,特别是对于小的模糊文本。
•提出了一种新的文本感知损失,使生成器能够感知文本的内容并产生有利于识别的信息。
•在几个具有挑战性的公共基准上证明了我们提出的方法的有效性,并优于强基准方法。
这是第一个专注于文本超分辨率的工作。也是第一个专注低分辨率图片的文本识别工作。

模型

我们设计了一个端到端的网络(TextSR),可以同时进行超分辨率和文本识别。与以往的超分辨率方法不同,我们将文本识别的Loss作为文本感知的缺失来指导超分辨率网络的训练,从而更加关注文本的内容,而不是无关的背景区域。
TextSR是一个端到端的网络,文本识别的结果可以反馈到端到端的网络,来指导超分辨率网络的训练。在文本识别网络的指导下,超分辨率网络将着重于文本区域的重新定位,从而生成清晰、清晰、可识别的文本图像。
整个模型由生成器、鉴别器和文本识别器三部分组成。生成器和鉴别器采用(SRGAN),文本识别器采用(ASTER)。
在这里插入图片描述

在生成器中,使用超分辨率网络将模糊的小文本向上采样到一个确定的尺度进行识别。与该方法可以部分地减少伪影,提高上采样图像的质量。网络中有两个反卷积层,每一层由学习核组成,学习核将低分辨率图像向上采样到2×高分辨率图像。除了最后一层之外,我们在每个卷积层之后使用归一化和RELU激活。生成网络可以对低分辨率图像进行上采样,输出4×超分辨率图像。
在鉴别器中,应用分类网络来区分高分辨率图像和生成的用于对抗性训练的超分辨率图像。输入为超分辨率图像或HR图像,输出为输入为HR图像的概率。
文本鉴别器由文本定向网络和文本识别网络组成。文本定向网络能够利用thinplate spline将不规则文本重新排列成水平文本,从而实现对输入图像中字符排列的校正;文本识别网络由编码器和解码器两部分组成。编码器用于提取文本图像的特征。它包括residual blocks。在每个块之后,通过沿其行轴拆分feature map,将其转换为特征序列。有两层双向LSTM来捕获两个方向上的长距离相关。每个都由一对LSTM组成。在进入下一层之前,LSTM的输出被连接并通过线性投影层。解码器是注意力集中的LSTM,可识别94个字符类,包括数字、大写和小写字母,以及32个ascii标点符号。
然而,由SRGAN直接生成的高分辨率图像缺乏识别任务所需的具体详细信息。因此,我们提出了内容感知的超分辨率网络,以恢复对文本识别友好有用的信息。一个更有效的文本超分辨率网络需要一个内容感知生成器来产生清晰、清晰和可识别的文本图像,而不是无关背景区域的更多细节。因此,我们引入一种新的文本感知损失(TPL),使生成器产生可识别的、清晰的文本图像。TPL由文本识别器提供,以指导生成器生成清晰的文本,以便于识别。
在这里插入图片描述

实验

在这里插入图片描述

不同尺寸的图片,文本识别效果的比较。分辨率越低的图像识别越明显。
在这里插入图片描述

上表是超分辨效果的提升。由于TPL的监督作用,我们的生成器能够真正理解文本图像中的内容。

在这里插入图片描述
不同数据集下的sota模型比较效果,可以看出来加入真实数据集提升非常明显(可以考虑real50)

Selective Super-Resolution for Scene Text Images (ICDAR2019)

动机

  1. 图像超分辨可能不同的训练方式会有不同的效果,针对文本图像我们采用两种超分辨训练方式。一种是带有文本的图片,另一种是一般的目标超分辨。
  2. 我们可以尝试通过使用上下文网络融合(CNF)对同时包含文本和对象的图像进行超分辨率处理。CNF通过精细调整将各个cnn的输出集成到附加层中,以融合异构信息。

贡献

本文的贡献两个。
首先,分析了用目标图像和文本图像训练的srcnns在特征上的差异。具体来说,我们对SRCNNs的超分辨能力进行了定量和定性评估,我们使用奇异向量典型相关分析(SVCCA)找到层之间的相关性,并使用t-分布随机邻居嵌入(t-SNE)比较每个SRCNN的滤波器。
其次,我们提出利用CNF来组合SRCNNs,以产生一个更稳健的模型。

模型

在这里插入图片描述
模型太过简单,这里就不再赘述了。

实验

在这里插入图片描述

表1显示了使用这四种度量对字符SRCNN和图像网络SRCNN进行定量评估的结果。在表中,字符区域是包含字符的ICDAR 2013场景文本图像的区域,其他区域是不包含字符的区域。毫不奇怪,字符SRCNN在字符区域显示更好的结果,而ImageNet SRCNN在非字符区域显示更好的结果。然而,根据这个结果,可以说SRCNNs可以通过不同的训练来针对特定类型的数据。
在这里插入图片描述
蓝色区域是字符SRCNN分数较高,红色区域是imaneNet SRCNN分数较高。在文本周围的区域中,字符SRCNN结果得到了改进,如蓝色所示。相反,在精度比较中,背景区域主要是红色像素。
在这里插入图片描述
上图示出了字符SRCNN和ImageNet SRCNN中的卷积层之间的相关性(SVCCA的方法)。每个单元中的数字表示对应层之间的相关系数。从图中可以看出,相应层之间存在一定程度的相关性。然而,它们并不完全相同,这表明每个SRCNN都有自己的特点。
在这里插入图片描述

CNF-SRCNN的结果如上表所示。与SRCNN相比,CNF-SRCNN在每次定量评估中表现更好。这表明,CNF-SRCNN能够利用这两种SRCNN的特性,并将它们组合成一个稳健的超分辨率模型。

TEXT-ATTENTIONAL CONDITIONAL GENERATIVE ADVERSARIAL NETWORK FOR SUPER-RESOLUTION OF TEXT IMAGES(ICME 2019)

摘要

自然场景图像中的文本往往面临低分辨率问题,这给文本检测和识别等许多与文本相关的任务带来了极大的困难。本文提出了一种新的文本图像超分辨率(SR)的文本注意条件生成对抗网络(cGAN)模型。该模型基于 Residual Dense 通道注意块和文本/非文本分割信息引入有效的通道和空间注意机制,对原始cGAN进行增强,将模型的注意力集中在文本区域而不是图像的背景上,以学习更有效的文本表示,从而实现对原始cGAN的增强更好的文本超分辨率结果。该模型在公共文本图像超分辨率数据上达到了最先进的性能。

动机

利用卷积神经网络(CNN)和生成性对抗网络(GAN)等多种深层神经网络模型学习LR-HR映射。虽然已经取得了许多有希望的结果,但现有的SR方法大多是通用的,在文本图像的超分辨率方面的研究成果非常有限。

贡献

  1. 我们在原始的条件生成对抗网络(cGAN)模型中引入有效和互补的空间和通道注意机制,以获得更好的文本SR结果,从而使所提出的SR模型能够学习到更有效的文本表示。
  2. 我们提出了剩余密集信道注意块(RDCAB)作为一个基本的网络单元,将信道注意机制融入SR模型中,使得该模型能够为我们的超分辨率任务提取和强调更有效的特征。
  3. 我们提出了利用图像的文本/非文本分割信息的文本空间注意机制,并相应地修正了模型损失函数,使得SR模型更关注文本区域而不是图像背景,从而提高了文本SR质量和学习效率。
  4. 所提出的方法在大多数SR性能指标上优于最先进的方法。

模型

我们的生成器网络与现有SR模型中使用的常见CNN结构的主要区别在于两个方面:两个方面的文本注意建模,它利用图像的文本/非文本二元分割信息,以及channel方面。这两种注意机制都使得网络更加关注图像的文本部分而不是背景,从而更好地捕捉文本特征,提高文本图像的最终超分辨率性能.
具体地说,我们建议将一幅图像的文本/非文本二值分割图作为其单独的补充通道,生成4通道RGB+分割(RGBS)图像,这有助于显著提高网络的SR性能和学习效率,通常可以通过应用自适应图像阈值来获得文本区域上的算法。注意,文本/非文本分割图不需要非常精确,因为文本的粗糙形状足以帮助模型更加关注文本部分。因此,生成器网络的输入是4信道RGB图像,而生成器的输出是3信道RGB图像
在这里插入图片描述
通常,图像超分辨率的目的是不加选择地增强输入图像的所有细节。但是,对于文本图像的SR任务,我们的主要目的是增强图像中的文本,而对其他图像部分的质量关注较少。因此,我们建议在我们的文本SR模型中引入并开发注意机制,以帮助学习更有效的文本表示,从而更好地提高文本在图像中的分辨率,这将有效地促进后续与文本相关的任务,如识别和检测。
具体来说生成器有两个分支,上面的Feature分支和下面的Mask分支。Mask分支,我们利用SE ResNet模块,作为我们的基本信道注意块(CAB),从分割图中提取信息特征;对于Feature分支,我们提出了一种剩余密集通道注意块(RDCAB)结构作为基本特征提取单元。
在这里插入图片描述
Loss设计:作者的Loss既包括对抗Loss也包括内容Loss。
对抗Loss
在这里插入图片描述
内容Loss
在这里插入图片描述

实验

在这里插入图片描述

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值