ECCV2020 Scene Text Image Super-Resolution inthe Wild

文章:Scene Text Image Super-Resolution in the Wild | SpringerLink

代码:GitHub - JasonBoy1/TextZoom: A super-resolution dataset of paired LR-HR scene text images

摘要,简介,相关工作

提出了一种新的文本场景SR数据集:textzoom。该数据集是真实场景下的通过长短焦镜头得到的低分辨率和高分辨率的图像对。相比于之前的bicubic更加能够应对真实的场景。The TextZoom dataset is cropped from the newly proposed SISR datasets [4,46]
 

同时,本文认为提高识别率才是场景文本SR的最终目标,而不是简简单单的比较psnr和ssim等指标。

TextZoom的部分数据如下图所示:

同时,将TextZoom数据集分成easy, medium and hards三部分。

现有的文本识别对清晰的文字识别度很高,但是在低分辨率文字上效果下降严重。

实验

5.3 Is SR Necessary for Text Recognition?

It is assumed that we could achieve better performance on recognizing lowresolution (LR) text images if we directly train the recognition networks on small size images, and then the super-resolution procedure could be removed. 利用低分辨率的文本图像来训练识别模型,这样就可以直接提高识别模型在低分辨率文本上的识别精度,进而不用SR这个步骤。

为了验证直接在低分辨率图像上训练所得到的识别模型并不能直接提升对低分辨率的图像的识别率。

这里对比了四种不同的识别模型:

released:ASTER的官方识别代码和模型

ReIm:将ASTER在64*16的图像上重新训练。这样的意思就是直接在低分辨率图像上来训练识别率,从而使得网络对低分辨率的图像也有针对性的较高的识别精度

Fine-tune:将ASTER在TextZoom上微调

Ours:通过所提出的TSRN先进行SR,再用ASTER来进行识别

从表2中可以看出:重新在小图像上训练得到的模型确实在对小的场景文本识别上具有更高的识别率,但是依然在性能上不如我们的方法。

微调的方式虽然在textzoom数据集上具有很好的效果,但是很容易过拟合,导致在其他数据集上的效果剧烈下降

5.4 Synthetic LR vs. TextZoom LR

we compare the performance of the models trained on synthetic datasets and our TextZoom
dataset. The quantitative results are shown in the supplementary materials.

5.5 Ablation Study on TSRN

 5.6 Comparison with State-of-the-Art SR Methods

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芝麻开花666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值