Scene Text Image Super-Resolution in the Wild

最新推荐文章于 2023-12-31 23:31:01 发布

sr_super

最新推荐文章于 2023-12-31 23:31:01 发布

阅读量1k

点赞数

分类专栏：文本超分文章标签：计算机视觉

本文链接：https://blog.csdn.net/sinat_34546154/article/details/111275680

版权

文本超分专栏收录该内容

1 篇文章 1 订阅

订阅专栏

Scene Text Image Super-Resolution in the Wild 在这里插入图片描述
ECCV2020上的一篇文章，作者来自商汤研究院、香港大学等。

参考目录

Motivation

文章的主要动机有以下几点：

现代文本识别技术在清晰本文上已经取得了很好的识别效果，但是在识别低分辨率文本图像时，表现性能急剧下降，主要困难在于光学退化模糊了字符形状，所以作者提到将超分作为文本识别任务的预处理过程非常有必要。
目前大多数SISR方法是在特定下采样核（Bicubic）的低分辨率图像上进行训练，不能很好地推广到真实的文本图像上，因为真实场景的文本图像存在很多退化方式。
传统的SISR方法只注重对文本细节的重构，只满足人的视觉感知，场景文本图像SR是一个相当特殊的任务，文本图像前后字符之间存在依赖关系。

基于以上几点问题，文章主要作了两个工作：1）提出了一个真实场景文本图像超分数据集TextZoom；2）提出了一个专门用于文本图像的超分辨率网络TSRN。

TextZoom

TextZoom来自于两个数据集：RealSR和SR-RAW，它们的数据集都是从数码相机中用不同的焦距拍摄得到的。
在这里插入图片描述
上面这张图展示了SR-RAW的数据集，它以7种不同的焦距收集，焦距越大（左边）得到的图像越清晰，焦距越小则越模糊（右边）。

作者用视场匹配和变换的方法来初步对齐图像（上图第二行），得到对齐图像后在焦距最大的图像上面裁剪文本图像，然后用同样大小的文本框去裁剪其它焦距的图像，从而得到不同分辨率的文本图像，清晰（焦距大）的文本图像作为HR图像，模糊（焦距小）的文本图像作为LR图像，所以在这个过程中得到的LR-HR对不可避免的会出来不对齐的情况。
在这里插入图片描述
根据裁剪得到的文本图像的尺寸和焦距的不同，作者把TextZoom分成3个难度子集。

最终得到的文本图像的数量和在文本识别模型Aster上测试的准确率结果如下图所示。

Text Super-Resolution Network(TSRN)

作者设计了一个专门用于文本图像超分的网络，网络的baseline是SRResNet，主要对SRResNet结构作了以下几点修改：

网络前添加一个中心对齐模块 central alignment module，用来缓解TextZomm中的对齐问题。
把residual block替换成序列残差块Sequential Residual Block（srb），用于提取文本图像的序列信息。
设计了梯度先验损失（LGP），用于锐化字符边缘。

Input ：把二进制掩模图作为作为文本图像的先验语义分割标签，和文本图像一起级联，输入到网络中，因为文本一般颜色是一样的，大多数文本图像的背景纹理也不复杂，二进制掩码图可以通过计算RGB图像的平均灰度来简单生成。
在这里插入图片描述
Sequential Residual Block ：传统的SISR方法只关心纹理的再恢复，忽略上下文信息，但是文本图像具有很强的序列性,因此，文章修改了residual blocks，引入Bi-directional LSTM(BLSTM)。为了让网络对倾斜文本也具有鲁棒性，从水平和垂直两个方向引入BLSTM，BLSTM以水平卷积和垂直卷积特征作为序列输入，在隐藏层中反复更新其内部状态。
在这里插入图片描述

具体的CNN->RNN过程参考的是CTPN的做法，可以参考这篇论文作简单了解：
https://zhuanlan.zhihu.com/p/34757009

Central Alignment Module ：在LR-HR pair 像素不对齐的情况下，在训练过程中使用pixel loss，如L1 loss和L2 loss 会导致产生伪影和双阴影，所以文章在网络开头添加了中心对齐模块，用空间变换网络STN作为对齐模块，网络会预测一组控制点，然后通过Thin-Plate-Spline（TPS）变换对图像进行校正。下图显示了通过中心对齐模块得到的校正结果。
在这里插入图片描述

STN（Spatial Transformer Networks）：https://www.cnblogs.com/liaohuiqiang/p/9226335.html
Thin-Plate-Spline：让两张图像对应的像素点重合

Gradient Profile Loss ：因为文本图像上的字符，颜色在一般情况下是一样的，背景在大多数情况下也不会存在复杂的纹理，我们只需要注意字符和背景之间的边界，所以作者使用了梯度轮廓损失用于锐化文本边缘，使生成的图像字符更加清晰。
在这里插入图片描述

LR图像具有较宽的梯度场曲线，而HR图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线。