文本检测综述（2017 ～ 2021 持续更新）

最新推荐文章于 2022-10-17 16:18:12 发布

等待破茧

最新推荐文章于 2022-10-17 16:18:12 发布

阅读量2.3k

点赞数 1

文章标签：文本检测

原文链接：https://blog.csdn.net/m0_38007695/article/details/100133117

版权

本文综述了2017-2020年深度学习在文本检测方面的研究，涵盖了一系列模型，如CTPN、SegLink、EAST、PSENet等，这些模型针对水平、弯曲和不规则形状文本的检测进行了优化。文章讨论了传统方法与深度学习方法的区别，以及文本检测的挑战和解决方案，强调了回归和分割方法在处理文本实例的形状和连接性上的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载自https://blog.csdn.net/m0_38007695/article/details/100133117

文本检测

文本检测综述
文本检测传统方法
文本检测深度方法
目标检测
文本检测
1.CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）
2. SegLink（Detecting Oriented Text in Natural Images by link Segments）
3. EAST（EAST: An Efficient and Accurate Scene Text Detector）
4. PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）
5. LSAE（Learning Shape-Aware Embedding for Scene Text Detection）
6. ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）
7. CRAFT（Character Region Awareness for Text Detection）
8. LOMO（Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes）
9. PAN（Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network）
10. Mask TextSpotter（ An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes）
11. Learning to Predict More Accurate Text Instances for Scene Text Detection
12. DBNet（Real-time Scene Text Detection with Differentiable Binarization）
13. SBD（Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection）
14. ABCNet（Real-time Scene Text Spotting with Adaptive Bezier-Curve Network）
15. SR-Deeptext（Scale robust deep oriented-text detection network）
16. FCENet（Fourier Contour Embedding for Arbitrary-Shaped Text Detection）
17. STKM（Self-attention based Text Knowledge Mining for Text Detection）
18. MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
19. TextMountain: Accurate scene text detection via instance segmentation.
20. TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
21. STR-TDSL: Scene Text Retrieval via Joint Text Detection and Similarity Learning
方法总结
参考文献
OCR(Optical Character Recignition) 光学字符识别

文本识别分为两个步骤：文本检测和文本识别，传统的文本检测方法一般采用手工特征提取的方式进行检测文本，比如 SWT、MSER等方法，然后采用模板匹配或模型训练的方法对检测到的文本进行识别。而现在的深度学习方法使用卷积神经网络代替手工提取特征方法进行文本检测，然后神经网络对检测到的文本进行识别。

本篇文章是对近年来（2017-2020）一些重要的深度学习方向上的文本检测方法的综述。

文本检测从刚开始的检测水平文本，到检测多方向文本，再到检测弯曲文本以及不规则形状文本，在这个方向上有了很大的进展，提出的新模型可以解决大部分问题。总体来说，文本检测可以分为两大类：基于回归的文本检测和基于分割的文本检测。基于回归的文本检测，基本上都是将文字当做一个目标去检测，主要是受到了一些目标检测方法的启发，比如SSD，FasterRCNN等。基于分割的文本检测，相当于是对图像的像素进行分类，表示是不是文本部分，得到属于文本部分的二值图，然后通过后处理部分得到文本框。

文本检测传统方法
图像预处理；版面处理；图像切分；特征提取、匹配及模型训练；识别后处理

预处理：灰度化、二值化、倾斜检测与矫正，平滑、规范化
版面处理：版面分析、版面理解、版面重构
图像切分：行（列）切分和字切分
特征提取与模型训练：特征提取及匹配、模型训练
识别后处理：版面恢复和识别矫正
文本检测：

SWT(Stroke Width Transform) 笔画宽度变化

MSER(Robust wide-baseline stereo from maximally stable extremal regions) 最大稳定极值区域

对文字形状变化（文字模糊、笔画粘连、断笔、黑白不均、油墨反透）的适应性和抗干扰性比较差

文本检测深度方法
简单说一下为什么通用目标检测不太适合文本检测（也是可以用的）：

目标检测
候选区域、特征提取、分类、位置精修

RCNN

一整图像生成1K~2K个候选区域（Selective Search）
对每个候选区域，使用深度网络提取特征
特征送入每一类的SVM分类器，判别是否属于该类
使用回归器精细修正候选框位置
Fast-RCNN

整张图归一化后直接送入深度网络
在ROI Pooling层才输入候选框
然后再进行分类和回归
Faster-RCNN

区域生成网络 + Fast-RCNN （使用区域生成网络代替 Fast-RCNN中的 Selective Search 方法）

基础网络做特征提取
特征送入RPN做候选框提取
分类层对候选框内物体进行分类，回归层对候选框的坐标进行精细调整
文本特点：

使用通用目标检测方法做文本检测效果不好，因为文本有自己独有的特点，这种通用的文本检测并不能很好的解决文本的这些特点：

文本大多数以长矩形形式存在，与普通的目标检测中的物体不一样（长宽比接近于1）
普通物体存在明显的闭合边缘轮廓，而文本没有
文本中包含多个文字，而文字之间是有间隔的，如果检测做的不好，我们就会把每个字都当成文本行给框出来而非整行作为文本框，这与我们的期望不一样
基于以上文本检测的特点，必须对Faster-RCNN这类通用网络进行改进，设计出适合文本检测全新架构。

文本检测
1.CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）
解读链接：CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）

考虑到文本框以长矩形存在，首先检测文本的一小部分，判断是不是文本的一部分，然后将同一个文本框的小文本框合并，得到一个完整的、大的文本框。
考虑到文本都是连续字符，连续的上下文本信息很重要，所以使用了RNN（BLSTM）来进一步提升效果。还有就是如果仅仅根据一个文本框的信息预测该框内含不含有文字是很草率的，如果参考这个框的左边和右边的信息后，也就是使用RNN将左右信息利用起来，会大大提升预测的准确率。
对 y 轴中心和高度的偏移进行回归（宽度固定为16，高度在 11-283之间）
使用边缘细化方法精修边缘
将各部分进行文本行构建

缺点：对于非水平文本的检测效果不好，比如弯曲文本、多向文本（垂直文本）。

2. SegLink（Detecting Oriented Text in Natural Images by link Segments）
与CTPN思想类似，都是先找出文本行的一部分，然后再连接所有的部分，组成一个完整的文本行；
在SSD基础上加入了旋转角度的学习；
在小部分文本框之前用连接线（相邻框的中点连线）来表示属不属于同一个文本框，也是用网络来学习；
使用融合规则将各个阶段的框信息和线信息进行融合，组成文本行。

缺点：不能检测间隔很大的文本行，不能检测弯曲文本

3. EAST（EAST: An Efficient and Accurate Scene Text Detector）
解读链接：EAST（EAST: An Efficient and Accurate Scene Text Detector）

把完整文本行先分割检测再合并的思路，做法比较麻烦，把文本检测切割成多阶段来进行，增大了文本检测精度的损失和时间消耗，中间处理影响效果。（候选框选取，候选框过滤，bbox回归，候选框合并）

通过FCN结构的网络直接学习是不是文本框以及文本框的坐标和角度（或者八个坐标）；
局部感知NMS（先合并再NMS），降低了NMS的复杂度。
精度和速度都有所提高

缺点：感受野不大，对于长文本检测不是很好，比较适合短文本行检测

AdvancedEAST：score map -> 文本头部、中部和尾部三部分，没有从根本上解决长文本检测。

4. PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）
解读链接：PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）

bbox回归的方法对弯曲文本的检测不准确，分割的方法对文字紧靠的情况分割效果不好。

亮点：渐进式扩展算法

是一个基于像素分割的方法，能够精确地定位任意形状的文本实例；
提出了渐进式扩展算法，即使两个文本实例离得很近也可以分开，从而保证文本实例的准确位置
从最小尺度的kernels开始扩展，最小的kernels可以把紧靠的文本实例分开；逐渐扩展到更大的kernels；直到扩展到最大的kernels，组成最终的结果。

缺点：对于不同的数据集，超参数的选取较为重要（最小尺度比例和分割结果数）。

5. LSAE（Learning Shape-Aware Embedding for Scene Text Detection）
解读链接：LSAE（Learning Shape-Aware Embedding for Scene Text Detection）

亮点：嵌入形状感知

分离紧靠的文本实例
解决文本行过长的问题

使用输出的三个结果做聚类。

6. ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）
解读链接：ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）

使用LSTM网络学习应该使用多少个点来表示文本框。

类似于Faster-RCNN，增加了基于自适应文本表示的LSTM分支。

7. CRAFT（Character Region Awareness for Text Detection）
解读链接：CRAFT（Character Region Awareness for Text Detection）

通过精确的定位每一个字符，然后再把检测到的字符连接成一个文本。

生成两部分GT，字符框 + 亲和框（同一文本框中的相邻字符），使用高斯热图
字符感知方法，只需要很小的感受野就可以了处理长的弯曲文本

缺点：对粘连字符的检测效果不好；对标注数据的要求高；使用弱监督学习生成伪GT造成的损失；训练复杂，需要先进行弱监督训练得到字符级标注框，再训练网络。

8. LOMO（Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes）
解读链接：LOMO（Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes）

LOMO由直接回归器（DR），迭代优化模块（IRM）和形状表示模块（SEM）组成。

首先，DR分支生成四边形形式的文本建议框。接下来，IRM基于提取的初步建议功能块，通过迭代细化逐步感知整个长文本。最后，通过考虑文本实例的几何属性（包括文本区域，文本中心线和边界偏移），引入了SEM来重构不规则文本的更精确表示。

9. PAN（Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network）
解读链接：PAN（Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network）

有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块（FPEM）和特征融合模块（FFM）组成。 FPEM是可级联的U形模块，可以引入多级信息来指导更好的分割。 FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。可学习的后处理是通过像素聚合（PA）实施的，该算法可以通过预测的相似度矢量精确地聚合文本像素。

通过分割网络预测文本区域，内核和相似度向量。FPEM + FFM
从预测的内核重建完整的文本实例。

10. Mask TextSpotter（ An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes）
解读链接：Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

通过语义分割可以直接从二维空间实现检测和识别。

Spatial Attention Module（SAM）

Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用，并且同时考虑本地和全局文本信息会更有效
不同于之前的方法只能处理水平或者旋转文本，本文方法可以处理任意形状的文本
Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架，它具有简单，平滑的训练方案，因此其检测模型和识别模型可充分受益于特征共享和联合优化。

11. Learning to Predict More Accurate Text Instances for Scene Text Detection
解读链接：Learning to Predict More Accurate Text Instances for Scene Text Detection

为检测弯曲文本，提出与起始顶点无关的坐标回归，提出文本实例精度损失作为辅助任务来细化预测坐标。

基于回归+像素

12. DBNet（Real-time Scene Text Detection with Differentiable Binarization）
解读链接：DB（Real-time Scene Text Detection with Differentiable Binarization）

速度很快！

传统的基于分割的文本检测的后处理方法比较复杂，提出的差分二值化不仅可以简化后处理还可以增强文本检测的性能。

13. SBD（Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection）
解读链接：SBD（Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection）

SBD首先将四边形边框离散为几个关键边缘，其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置，提出了一种简单而有效的匹配程序来重构四边形边界框。

基本思想是利用与标签序列无关的不变表示形式（例如，最小x，最小y，最大x，最大y，平均中心点和对角线的相交点）来反推边界框坐标。为了简化参数化，SBD首先查找所有包含顶点的离散水平和垂直边。然后学习序列标记匹配类型以找出最佳拟合的四边形。摆脱了训练目标的模糊性。

检测水平和旋转矩形，不能检测多边形以及任意形状的文本。

14. ABCNet（Real-time Scene Text Spotting with Adaptive Bezier-Curve Network）
解读链接：ABCNet（Real-time Scene Text Spotting with Adaptive Bezier-Curve Network）

使用参数化的 Bezier 曲线自适应的拟合任意形状的文本

15. SR-Deeptext（Scale robust deep oriented-text detection network）
对文本尺度的变化就有鲁棒性，并且可以减轻类别不平衡。

在EAST基础上做的改动，主干网络使用 ResNet50，不适用多尺度而是在网络中嵌入了上采样层，避免了高计算复杂度。还增加了细化模块 refining block，包含残差卷积单元（RCU）和链式残差池（CRP），以通过使用远程残差连接来改善预测。

16. FCENet（Fourier Contour Embedding for Arbitrary-Shaped Text Detection）
论文链接：https://arxiv.org/abs/2104.10442
解读链接：
代码地址：https://github.com/open-mmlab/mmocr

待读

17. STKM（Self-attention based Text Knowledge Mining for Text Detection）
论文链接：
解读链接：
代码地址：https://github.com/CVI-SZU/STKM

待读

18. MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
论文链接：https://arxiv.org/abs/2104.01070
解读链接：
代码地址：

待读

19. TextMountain: Accurate scene text detection via instance segmentation.
论文链接：https://arxiv.org/abs/1811.12786
解读链接：
代码地址：https://github.com/uunnhh/TextMountain

待读

20. TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
论文链接：https://arxiv.org/abs/2105.05486
解读链接：
代码地址：https://textvqa.org/textocr

待读

21. STR-TDSL: Scene Text Retrieval via Joint Text Detection and Similarity Learning
论文链接：https://arxiv.org/abs/2104.01552
解读链接：
代码地址：https://github.com/lanfeng4659/STR-TDSL

待读

方法总结
论文题目   模型   方法   时间   检测文本类别   备注
Tian et al.[1]   CTPN   回归   ECCV 2016   水平文本
Liao et al. [8]   TextBoxes   回归   CVPR 2017   水平文本
Shi et al.[2]   SegLink   回归   CVPR 2017   水平+弯曲文本
Zhou et al.[3]   EAST   回归   CVPR 2017   水平+旋转文本
Liao et al. [9]   TextBoxes++   回归   IEEE 2018   水平+旋转文本
Zhu et al. [10]   SLPR   回归   arXiv 2018   水平+弯曲+不规则文本
Lyu et al. [11]       回归+分割   CVPR 2018   水平+旋转文本
Liao et al. [12]   RRD   回归   CVPR 2018   水平+旋转文本
Yang et al. [13]   IncepText   回归+分割   IJCAI 2018   水平+旋转文本
Yue et al. [14]   Guided CNN   回归+分割   BMVC 2018
Liu et al. [15]   MCN   分割   CVPR 2018   水平+旋转文本
Long et al. [16]   TextSnake   回归   ECCV 2018   水平+弯曲+不规则文本
Chu et al. [17]   Border   回归   ECCV 2018   水平+旋转文本
Wang et al.[20]   ITN   回归   CVPR 2018   水平+旋转文本
Zhao et al. [24]   Elite Loss   分割   2018   水平+旋转文本
Liu et al.[22]   CSE   回归   CVPR 2019   水平+弯曲+不规则文本
Wang et al.[4]   PSENet   分割   CVPR 2019   水平+弯曲+不规则文本
Tian et al.[5]   LSAE   分割   CVPR 2019   水平+弯曲+不规则文本
Wang et al.[6]   ATRR   回归   CVPR 2019   水平+弯曲+不规则文本
Zhang et al. [26]   LOMO   回归+分割   CVPR 2019   水平+弯曲+不规则文本
Baek et al.[7]   CRAFT   分割   CVPR 2019   水平+弯曲+不规则文本
Wang et al.[18]   PAN   分割   ICCV 2019   水平+弯曲+不规则文本
Liao et al. [27]   MaskTextSpotte   分割   TPAMI2019   水平+弯曲+不规则文本   检测+识别
Liao et al. [23]   DBNet   分割   AAAI 2019   水平+弯曲+不规则文本
Liu et al. [19]   SBD   回归   arXiv 2019   水平+旋转文本
Zheng et al. [21]   SR-Deeptext   分割   PR 2019   水平+旋转文本
Liu et al. [25]   ABCNet   回归   CVPR 2020   水平+旋转+不规则文本   检测+识别
Zhang et al.[28]   DRRG       CVPR 2020   水平+旋转+不规则文本
Wang et al.[29]   ContourNet       CVPR2020   水平+旋转+不规则文本
Yiqin et al.[30]   FCENet       CVPR2021
He et al.[31]   MOST       CVPR2021
Zhu et al.[32]   TextMountain       PR2021
Amanpreet et al.[33]   TextOCR       CVPR2021
Hao et al. [34]   STR-TDSL       CVPR2021
参考文献
[1] Tian Z, Huang W, He T, et al. Detecting text in natural image with connectionist text proposal network. European conference on computer vision(ECCV), 2016: 56-72

[2] Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3482-3490

[3] Zhou X, Yao C, Wen H, et al. EAST: an efficient and accurate scene text detector. CVPR, 2017: 2642-2651.

[4] Wenhai W, Enze X, et al. Shape Robust Text Detection with Progressive Scale Expansion Network. In CVPR 2019.

[5] Zhuotao Tian, Michelle Shu, et al, Learning Shape-Aware Embedding for Scene Text Detection. In CVPR, 2019.

[6] Xiaobing Wang, Yingying Jiang, et al, Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation. In CVPR, 2019.

[7] Youngmin Baek, Bado Lee, et al. Character Region Awareness for Text Detection. In CVPR 2019.

[8] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network. AAAI. 2017: 4161-4167.

[9] Liao M, Shi B , Bai X. TextBoxes++: A Single-Shot Oriented Scene Text Detector. IEEE Transactions on Image Processing, 2018, 27(8):3676-3690.

[10] Zhu Y, Du J. Sliding Line Point Regression for Shape Robust Scene Text Detection. arXiv preprint arXiv:1801.09969, 2018.

[11] Pengyuan Lyu, Cong Yao, Wenhao Wu et al. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation. In CVPR 2018.

[12] Minghui L, Zhen Z, Baoguang S. Rotation-Sensitive Regression for Oriented Scene Text Detection. In CVPR 2018.

[13] Qiangpeng Yang, Mengli Cheng et al. IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection. In IJCAI 2018.

[14] Xiaoyu Yue et al. Boosting up Scene Text Detectors with Guided CNN. In BMVC 2018.

[15] Zichuan Liu, Guosheng Lin, Sheng Yang et al. Learning Markov Clustering Networks for Scene Text Detection. In CVPR 2018.

[16] Long, Shangbang and Ruan, Jiaqiang, et al. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes. In ECCV, 2018.

[17] Chuhui Xue et al. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping. In ECCV 2018.

[18] Wenhai Wang et al. Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV 2019

[19] Yuliang Liu et al. Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection

[20] Fangfang Wang et al. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR 2018

[21] Yuqiang Zheng,Yuan Xie,Yanyun Qu,Xiaodong Yang,Cuihua Li,Yan Zhang. Scale robust deep oriented-text detection network[J]. Pattern Recognition,2019

[22] Zichuan Liu et al. Towards Robust Curve Text Detection with Conditional Spatial Expansion. In CVPR2019

[23] Minghui Liao et al. Real-time Scene Text Detection with Differentiable Binarization. In AAAI2020

[24] Xu Zhao et al. Elite Loss for scene text detection. Neurocomputing 333: 284-291 (2019)

[25] YuLiang Liu et al. ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network. In Proc. IEEE Conf. Comp. Vis. Pattern Recogn. (CVPR) 2020

[26] Chengqian Zhang et al. Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes. CVPR 2019: 10552-10561

[27] Minghui Liao et al. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes. TPAMI 2019

[28] Shi-Xue Zhang et al. Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection. CVPR 2020

[29]Yuxin Wang et al. ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection. CVPR 2020

[30]Yiqin Zhu et al. Fourier Contour Embedding for Arbitrary-Shaped Text Detection. CoRR abs/2104.10442 (CVPR 2021)

[31] Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai: MOST: A Multi-Oriented Scene Text Detector with Localization Refinement. CoRR abs/2104.01070 (CVPR 2021)

[32] Yixing Zhu, Jun Du: TextMountain: Accurate scene text detection via instance segmentation. Pattern Recognit. 110: 107336 (2021)

[33] Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text. CVPR (2021)

[34] Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu: Scene Text Retrieval via Joint Text Detection and Similarity Learning. CVPR (2021)

参考资料：

传统OCR

目标检测

2017文本检测

2018文本检测

文本检测

原文链接：https://blog.csdn.net/m0_38007695/article/details/100133117