一、前言
许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。 随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。 OCR ( Optical Character Recognition) , 光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息 ; 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测( Scene Text Detection ),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。 二、场景文本检测数据集本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:
1. Horizontal-Text Datasets: ICDAR 2003、 ICDAR 2011、ICDAR 2013; 2. Arbitrary-Quadrilateral-Text Datasets: USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS; 3. Irregular-Text Datasets: CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT; 4. Synthetic Datasets: Synth80k、SynthText。详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。
表1 场景文本检测数据集对比
本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。
本文将场景文本检测方法分为四类:
(a) Traditional methods;
(b) Segmentation-based methods;
(c) Regression-based methods;
(d) Hybrid methods.
详细对比见表2-5以及资源链接。注:表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。
1. Traditional methods表2 传统场景文本检测方法对比
2. Segmentation-based methods
表3 基于分割的场景文本检测方法对比
![23557c900d7204e9669c1a73082e0ec9.png](https://i-blog.csdnimg.cn/blog_migrate/1638a5daae7a27aa84d6518a9ee4c2b5.jpeg)
表4 基于回归的场景文本检测方法对比
![dfb4f482a3c279d73b667a592fd49b4a.png](https://i-blog.csdnimg.cn/blog_migrate/3ea4086902bfc0bcb0d3334df6d3d456.jpeg)
4. Hybrid methods
表5 场景文本检测的集成方法对比
![5c2da71aed68dee76f89441b54aae27e.png](https://i-blog.csdnimg.cn/blog_migrate/9e7447eba3fbb2252f2a00d95b98b5bc.jpeg)
2. Detection Results on Arbitrary Quadrilateral Text Datasets
![6f6abbfd09b74a0367e228712d78d70e.png](https://i-blog.csdnimg.cn/blog_migrate/969487f498c0dbd01be43b45206b9b8e.jpeg)
![f9117f9595e5ea72150cfbcde76000f4.png](https://i-blog.csdnimg.cn/blog_migrate/97201b003d523f0513459f7390243ce7.png)
本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。
Github资源链接Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection
作者:刘崇宇 编排:高 学 审校:殷 飞 发布:金连文
作者及资源整理者介绍:刘崇宇,华南理工大学电子与信息学院在读硕士生。
![e91b03efa57faafadcffaf04242bc6ed.png](https://i-blog.csdnimg.cn/blog_migrate/902cf13803c5a71cc7f46a4644e435cf.png)
免责声明:本文仅代表作者观点,不代表本公众号立场。
(长按识别上图二维码加关注)