史上最全场景文字检测资源合集（70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息）...

weixin_38754361

于 2019-08-31 08:25:00 发布

阅读量402

点赞数

点击上方“AI算法与图像处理”，选择加"星标"或“置顶”

重磅干货，第一时间送达 640?wx_fmt=jpeg

640?wx_fmt=png

作者：刘崇宇

转载自：CSIG文档图像分析与识别专委会

本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码，包含176个实验结果以及超过1300条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息，对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术飞速发展，许多新型的应用场景都需要利用自然场景中的丰富的文本信息，例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。

OCR（Optical Character Recognition) , 光学字符识别，是指对输入的扫描文档图像进行分析处理，检测并识别出该图像当中的文本信息; 而自然场景中的文本，不同于传统的扫描图像，因其文字展现形式丰富，背景复杂，分辨率和亮度不一，容易受到环境噪声等因素的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测（Scene Text Detection），即准确定位自然场景中文本的位置，是场景文本分析与处理的基石。近年来，随着深度学习的发展，场景文本检测取得了突破性的进展。

二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集，根据数据集的形式和应用场景可以按如下标准划分：

1. Horizontal-Text Datasets：

ICDAR 2003、 ICDAR 2011、ICDAR 2013；

2. Arbitrary-Quadrilateral-Text Datasets:

USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS；

3. Irregular-Text Datasets:

CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT；

4. Synthetic Datasets:

Synth80k、SynthText。

详细对比内容如表1所示，其中包括语种、图片以及文本数量（训练/测试）、标注类型等，更多内容详见资源链接。

表1 场景文本检测数据集对比

640?wx_fmt=png

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文（发表于TPAMI、TIP等期刊以及CVPR，ICCV等CCF A类会议），对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类：

(a) Traditional methods;

(b) Segmentation-based methods;

(c) Regression-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注：表格中Hori，Quad和Irreg分别代表水平文本，任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

640?wx_fmt=png

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

640?wx_fmt=png

3. Regression-based methods

表4 基于回归的场景文本检测方法对比

640?wx_fmt=png

4. Hybrid methods

表5 场景文本检测的集成方法对比

640?wx_fmt=png

四、场景文本检测结果汇总

本小节整理了70篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表，详细内容请见资源链接。（注：P、R、F 分别代表Precision、Recall和F-measure。）

1. Detection Results on Horizontal-Text Datasets

640?wx_fmt=png

2. Detection Results on Arbitrary Quadrilateral Text Datasets

640?wx_fmt=png

3. Detection Results on Irregular-Text Datasets

640?wx_fmt=png

五、小结

本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外，我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。

Github资源链接

Scene Text Detection：https://github.com/HCIILAB/Scene-Text-Detection

作者：刘崇宇

编排：高学

审校：殷飞

发布：金连文

作者及资源整理者介绍：刘崇宇，华南理工大学电子与信息学院在读硕士生。

640?wx_fmt=png

免责声明：本文仅代表作者观点，不代表本公众号立场。

640?wx_fmt=gif

推荐阅读：

开学季，当当50元购书优惠券免费送！！！

好书分享 | 视觉算法工程成长指导手册

综述 | 相机标定方法

点个在看支持一下吧 640?wx_fmt=png

weixin_38754361

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
史上最全场景文字检测资源合集（70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息）...

点击上方“AI算法与图像处理”，选择加"星标"或“置顶”重磅干货，第一时间送达作者：刘崇宇转载自：CSIG文档图像分析与识别专委会本文总结了2012年以来在场景文本检测领...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。