ECCV2020 Scene Text Image Super-Resolution inthe Wild

最新推荐文章于 2024-04-20 09:41:54 发布

芝麻开花666

最新推荐文章于 2024-04-20 09:41:54 发布

阅读量470

点赞数

分类专栏： Scene Text SR 场景文本超分辨率文章标签： html5

本文链接：https://blog.csdn.net/qq_20777119/article/details/120430694

版权

Scene Text SR 场景文本超分辨率专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章：Scene Text Image Super-Resolution in the Wild | SpringerLink

代码：GitHub - JasonBoy1/TextZoom: A super-resolution dataset of paired LR-HR scene text images

摘要，简介，相关工作

提出了一种新的文本场景SR数据集：textzoom。该数据集是真实场景下的通过长短焦镜头得到的低分辨率和高分辨率的图像对。相比于之前的bicubic更加能够应对真实的场景。The TextZoom dataset is cropped from the newly proposed SISR datasets [4,46]

同时，本文认为提高识别率才是场景文本SR的最终目标，而不是简简单单的比较psnr和ssim等指标。

TextZoom的部分数据如下图所示：

同时，将TextZoom数据集分成easy, medium and hards三部分。

现有的文本识别对清晰的文字识别度很高，但是在低分辨率文字上效果下降严重。

实验

5.3 Is SR Necessary for Text Recognition?

It is assumed that we could achieve better performance on recognizing lowresolution (LR) text images if we directly train the recognition networks on small size images, and then the super-resolution procedure could be removed. 利用低分辨率的文本图像来训练识别模型，这样就可以直接提高识别模型在低分辨率文本上的识别精度，进而不用SR这个步骤。

为了验证直接在低分辨率图像上训练所得到的识别模型并不能直接提升对低分辨率的图像的识别率。

这里对比了四种不同的识别模型：

released：ASTER的官方识别代码和模型

ReIm：将ASTER在64*16的图像上重新训练。这样的意思就是直接在低分辨率图像上来训练识别率，从而使得网络对低分辨率的图像也有针对性的较高的识别精度

Fine-tune：将ASTER在TextZoom上微调

Ours：通过所提出的TSRN先进行SR，再用ASTER来进行识别

从表2中可以看出：重新在小图像上训练得到的模型确实在对小的场景文本识别上具有更高的识别率，但是依然在性能上不如我们的方法。

微调的方式虽然在textzoom数据集上具有很好的效果，但是很容易过拟合，导致在其他数据集上的效果剧烈下降

5.4 Synthetic LR vs. TextZoom LR

we compare the performance of the models trained on synthetic datasets and our TextZoom
dataset. The quantitative results are shown in the supplementary materials.

5.5 Ablation Study on TSRN

5.6 Comparison with State-of-the-Art SR Methods

芝麻开花666

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
ECCV2020 Scene Text Image Super-Resolution inthe Wild

文章：Scene Text Image Super-Resolution in the Wild | SpringerLink代码：GitHub - JasonBoy1/TextZoom: A super-resolution dataset of paired LR-HR scene text images摘要，简介，相关工作提出了一种新的文本场景SR数据集：textzoom。该数据集是真实场景下的通过长短焦镜头得到的低分辨率和高分辨率的图像对。相比于之前的bicubic更加能够应对真实的场景
复制链接

扫一扫