Scene Text Image Super-Resolution in the Wild

Scene Text Image Super-Resolution in the Wild 在这里插入图片描述
ECCV2020上的一篇文章,作者来自商汤研究院、香港大学等。

Motivation

文章的主要动机有以下几点:

  1. 现代文本识别技术在清晰本文上已经取得了很好的识别效果,但是在识别低分辨率文本图像时,表现性能急剧下降,主要困难在于光学退化模糊了字符形状,所以作者提到将超分作为文本识别任务的预处理过程非常有必要。
  2. 目前大多数SISR方法是在特定下采样核(Bicubic)的低分辨率图像上进行训练,不能很好地推广到真实的文本图像上,因为真实场景的文本图像存在很多退化方式。
  3. 传统的SISR方法只注重对文本细节的重构,只满足人的视觉感知,场景文本图像SR是一个相当特殊的任务,文本图像前后字符之间存在依赖关系。

基于以上几点问题,文章主要作了两个工作:1)提出了一个真实场景文本图像超分数据集TextZoom;2)提出了一个专门用于文本图像的超分辨率网络TSRN

TextZoom

TextZoom来自于两个数据集:RealSRSR-RAW,它们的数据集都是从数码相机中用不同的焦距拍摄得到的。
在这里插入图片描述
上面这张图展示了SR-RAW的数据集,它以7种不同的焦距收集,焦距越大(左边)得到的图像越清晰,焦距越小则越模糊(右边)。

作者用视场匹配和变换的方法来初步对齐图像(上图第二行),得到对齐图像后在焦距最大的图像上面裁剪文本图像,然后用同样大小的文本框去裁剪其它焦距的图像,从而得到不同分辨率的文本图像,清晰(焦距大)的文本图像作为HR图像,模糊(焦距小)的文本图像作为LR图像,所以在这个过程中得到的LR-HR对不可避免的会出来不对齐的情况。
在这里插入图片描述
根据裁剪得到的文本图像的尺寸和焦距的不同,作者把TextZoom分成3个难度子集。
在这里插入图片描述
最终得到的文本图像的数量和在文本识别模型Aster上测试的准确率结果如下图所示。
在这里插入图片描述

Text Super-Resolution Network(TSRN)

作者设计了一个专门用于文本图像超分的网络,网络的baseline是SRResNet,主要对SRResNet结构作了以下几点修改:

  1. 网络前添加一个中心对齐模块 central alignment module,用来缓解TextZomm中的对齐问题。
  2. 把residual block替换成序列残差块Sequential Residual Block(srb),用于提取文本图像的序列信息。
  3. 设计了梯度先验损失(LGP),用于锐化字符边缘。
    在这里插入图片描述

Input :把二进制掩模图作为作为文本图像的先验语义分割标签,和文本图像一起级联,输入到网络中,因为文本一般颜色是一样的,大多数文本图像的背景纹理也不复杂,二进制掩码图可以通过计算RGB图像的平均灰度来简单生成。
在这里插入图片描述
Sequential Residual Block :传统的SISR方法只关心纹理的再恢复,忽略上下文信息,但是文本图像具有很强的序列性,因此,文章修改了residual blocks,引入Bi-directional LSTM(BLSTM)。为了让网络对倾斜文本也具有鲁棒性,从水平和垂直两个方向引入BLSTM,BLSTM以水平卷积和垂直卷积特征作为序列输入,在隐藏层中反复更新其内部状态。
在这里插入图片描述

具体的CNN->RNN过程参考的是CTPN的做法,可以参考这篇论文作简单了解:
https://zhuanlan.zhihu.com/p/34757009

Central Alignment Module :在LR-HR pair 像素不对齐的情况下,在训练过程中使用pixel loss,如L1 loss和L2 loss 会导致产生伪影和双阴影,所以文章在网络开头添加了中心对齐模块 ,用空间变换网络STN作为对齐模块,网络会预测一组控制点,然后通过Thin-Plate-Spline(TPS)变换对图像进行校正。下图显示了通过中心对齐模块得到的校正结果。
在这里插入图片描述

STN(Spatial Transformer Networks):https://www.cnblogs.com/liaohuiqiang/p/9226335.html
Thin-Plate-Spline:让两张图像对应的像素点重合

Gradient Profile Loss :因为文本图像上的字符,颜色在一般情况下是一样的,背景在大多数情况下也不会存在复杂的纹理,我们只需要注意字符和背景之间的边界,所以作者使用了梯度轮廓损失用于锐化文本边缘,使生成的图像字符更加清晰。
在这里插入图片描述
在这里插入图片描述
LR图像具有较宽的梯度场曲线,而HR图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线。

Experiments

文章做了一系列丰富的实验,详细可以去看文章。

1 Is SR necessary for Text Recognition?

如果DNN网络能够直接在低分辨率图像上识别文字的效果好的话,说明对低分辨率图像先进行超分没有必要。为了说明超分的作用,用三个模型在两个数据集上作了对比实验,然后用Aster网络测试文本识别的准确率。
在这里插入图片描述
Released:表示官方发布的已经训练好的Aster模型。

ReIm:重新训练Aster模型,把训练集Syn90K and SynthText中的图像大小设计为64*14。相当于在低分辨率的文本图像上进行训练。

Fine-tune:在TextZoom上用ASTER预训练模型进行微调。

Ours:用TSRN网络生成SR图像,然后用官方发布的Aster进行预测。

common LR:在7个文本识别基准测试集上(IC13, IC15, CUTE, IC03, SVT, SVTP, CUTE and IIIT5K)筛选所有尺寸小于64×16像素的图像。

结果可以看到在TextZoom数据集上,效果不比finetune好,作者说原因可能是因为TextZoom是一个小数据集,可能产生了过拟合的情况。在CommonLR上,效果比其它方法要好。

Synthetic LR vs. TextZoom LR

这里说明了TextZoom的有效性,文章用不同的超分网络分别在Synthetic LR (bicubic 得到的LR图像)和TextZoom LR进行训练,然后用三个文本识别模型进行测试,结果显示三个超分网络在TextZoom上训练的结果比Synthetic LR要好。
在这里插入图片描述

Ablation Study on TSRN

对TSRN各个模块进行消融实验 1) SRBs. 2) Central Alignment Module. 3) Gradient Profile Loss.
在这里插入图片描述
在这里插入图片描述

Comparison with State-of-the-Art SR methods

与SOTA超分方法相比
在这里插入图片描述
在这里插入图片描述

这是一篇做文本超分的文章,提出的文本超分的数据集为文本超分方向作了铺垫。整篇文章着手于解决实际的文本超分问题,没有用到太多的trick去为提高性能而提高性能。

(不足之处,欢迎指出 record by qy)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值