c++实验总结_史上最全场景文字检测资源合集（70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息）...-CSDN博客

本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码，包含176个实验结果以及超过1300条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息，对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术飞速发展，许多新型的应用场景都需要利用自然场景中的丰富的文本信息，例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。 OCR ( Optical Character Recognition) , 光学字符识别，是指对输入的扫描文档图像进行分析处理，检测并识别出该图像当中的文本信息 ; 而自然场景中的文本，不同于传统的扫描图像，因其文字展现形式丰富，背景复杂，分辨率和亮度不一，容易受到环境噪声等因素的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测( Scene Text Detection )，即准确定位自然场景中文本的位置，是场景文本分析与处理的基石。近年来，随着深度学习的发展，场景文本检测取得了突破性的进展。 二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集，根据数据集的形式和应用场景可以按如下标准划分：

1. Horizontal-Text Datasets： ICDAR 2003、 ICDAR 2011、ICDAR 2013； 2. Arbitrary-Quadrilateral-Text Datasets: USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS； 3. Irregular-Text Datasets: CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT； 4. Synthetic Datasets: Synth80k、SynthText。

详细对比内容如表1所示，其中包括语种、图片以及文本数量(训练/测试)、标注类型等，更多内容详见资源链接。

表1 场景文本检测数据集对比

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR，ICCV等CCF A类会议)，对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类：

(a) Traditional methods;

(b) Segmentation-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注：表格中Hori，Quad和Irreg分别代表水平文本，任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

3. Regression-based methods

表4 基于回归的场景文本检测方法对比

4. Hybrid methods

表5 场景文本检测的集成方法对比

四、场景文本检测结果汇总 本小节整理了 70 篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表，详细内容请见资源链接。(注：P、R、F 分别代表Precision、Recall和F-measure。) 1. Detection Results on Horizontal-Text Datasets