随便写了一些自然场景文本检测的相关工作，以便往后复习。有写的不对的地方还请各位指正_yao c bai x sang n et al. scene text detection via-CSDN博客

本文链接：https://blog.csdn.net/qq_38284951/article/details/90712806

由于近来物体检测的发展和深度学习语义分割，场景文本检测已经取得了很大的进展。它们大致可分为两类：1）基于回归的方法。场景文本是特定类型的对象。许多最近的方法通过直接回归包含文本的水平/定向矩形或四边形来调整一般对象检测框架来检测文本。一些其他方法试图回归文本部分或角点，然后是链接或组合过程。 2）基于分段的方法。场景文本检测也可以视为文本实例分割。几种方法[1]-[3]依靠完全卷积网络来分割文本区域。通常涉及繁重的后处理以从文本区域中提取文本实例。

基于提议的方法主要受近期物体检测管道的启发.TextBoxes [4]通过使用长默认框和卷积滤波器直接调整SSD 进行场景文本检测，以应对显着变化的宽高比.TextBoxes ++通过回归四边形而不是水平边界框来扩展TextBoxes。 Ma等人。尝试通过在更快的r-cnn的流水线中采用旋转区域提议网络（RRPN）来解决多方向文本检测。 SSTD [5]引入FCN的注意机制来抑制背景干扰，提高对小文本的准确检测。廖等人。建议分别对文本/非文本框分类和回归应用旋转不变和敏感特征，从而促进长期文本检测。王等人。 [6]通过考虑用于场景文本检测的几何感知信息来提出实例变换网络。 East [7]和Deep回归[8]都执行每像素旋转矩形或四边形估计。缺点是基于提议的场景文本检测方法主要受最近的对象检测管道的启发，这些管道具有相对不太灵活的文本表示。它们通常以水平/定向矩形或四边形的形式回归文本实例，在检测不规则文本（例如，弯曲文本）方面具有有限的能力.

一些其他基于回归的方法倾向于回归文本部分，同时预测它们之间的链接关系。在[9]中，作者提出了一种连接主义文本提议网络CTPN，它首先预测垂直文本部分，然后采用递归神经网络来链接文本部分。施等人。提出一个名为SegLink [10]的网络，首先检测名为文本段的文本部分，同时预测相邻文本段之间的链接关系。在[11]中提出了一种名为Markov Clustering Network（MCN）的新框架。在这项工作中，作者建议将图像视为随机流图，其中流在文本节点（即文本像素）之间很强，但对其他节点较弱。然后应用马尔可夫聚类过程以从预测的流图中形成文本实例。在[12]中，Lyu等人。建议首先回归文本框的四个角，然后是角和非最大抑制NMS过程的组合，以实现准确的多向文本定位。基于回归是将文本实例分解为文本部分的方法，然后尝试链接相邻的文本部分。它们享有更灵活的表示，并且可以某种方式缓解在基于提议的方法中继承的相对简单的文本表示的问题。然而，在所采用的链接或组合策略的驱动下，这些方法通常产生多方向的文本检测。

还有就是基于分割的方法：基于分割的方法将文本检测视为文本区域分割问题，其通常通过完全卷积神经网络（FCN）来实现。它们主要在于如何将预测的文本区域后处理成文字或文本行。[1]，Zhang等。采用FCN估计文本块，使用MSER提取候选字符。然后，他们使用传统的分组和过滤策略来实现多方向的文本检测。除了文本块（单词或行）预测，姚等人。 [2]中还建议以整体方式通过FCN预测单个字符和文本框的方向。然后，基于文本的三个估计属性的分组过程产生文本检测。 Ch’ng等人。微调DeconvNet [13]实现曲线文本检测。在[14]中，作者将文本检测视为使用多尺度图像输入的实例分割问题。他们采用FCN来预测文本块，然后是两个CNN分支，用于预测文本行和来自估计文本块的实例感知分段。吴等人。 [15]除了文本/非文本分割之外还引入了文本边界，这导致了三级语义分割，便于相邻文本实例的分离。由于大小和纵横比的显着变化，大多数基于分割的方法建立在语义分割之上，然后是繁重的后处理步骤以将预测的文本区域分离成文本实例。除了文本掩码之外，还预测一些信息，例如文本边界，文本行，文本框方向或相邻像素之间的链接关系，以便于相邻文本的分离。然而，这种附加信息或者将方法限制为多方向文本检测，或者在分离相邻文本时也面临与文本语义分割类似的问题。 TextField直接对方向字段进行回归，该方向字段对文本掩码和指向远离文本边界的方向信息进行编码，从而允许简单地分离相邻文本。在这种意义上，TextField在检测不规则文本时更加优雅和高效。

[1] Zhang Z , Zhang C , Shen W , et al. Multi-Oriented Text Detection with Fully Convolutional Networks[J]. 2016.
[2] C. Yao, X. Bai, N. Sang, X. Zhou, S. Zhou, and Z. Cao, “Scenetext detection via holistic, multi-channel prediction,” arXiv preprint arXiv:1606.09002, 2016.
[3] D. He, X. Yang, C. Liang, Z. Zhou, G. Alexander, I. Ororbia, D. Kifer,and C. L. Giles, “Multi-scale fcn with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild.” in Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition, 2017, pp.474–483.
[4] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[J]. 2016.
[5] P. He, W. Huang, T. He, Q. Zhu, Y. Qiao, and X. Li, “Single shot text detector with regional attention,” in Porc. of IEEE Intl. Conf. on Computer Vision, 2017, pp. 3047–3055.
[6] F. Wang, L. Zhao, X. Li, X. Wang, and D. Tao, “Geometry-aware scene text detection with instance transformation network,” in Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition, 2018, pp. 1381–1389.
[7] Zhou X , Yao C , Wen H , et al. EAST: An Efficient and Accurate Scene Text Detector[J]. 2017.
[8] W. He, X.-Y. Zhang, F. Yin, and C.-L. Liu, “Deep direct regression for multi-oriented scene text detection,” in Porc. of IEEE Intl. Conf. on Computer Vision, 2017, pp. 745–753.
[9] Z. Tian, W. Huang, T. He, P. He, and Y. Qiao, “Detecting text in natural image with connectionist text proposal network,” in Proc. of European Conference on Computer Vision, 2016, pp. 56–72.
[10] B. Shi, X. Bai, and S. Belongie, “Detecting oriented text in natural images by linking segments,” in Proc. of IEEE Intl. Conf. on ComputerVision and Pattern Recognition, 2017, pp. 3482–3490.
[11] Z. Liu, G. Lin, S. Yang, J. Feng, W. Lin, and W. L. Goh, “Learning markov clustering networks for scene text detection,” in Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition, 2018, pp. 6936–6944.
[12] P. Lyu, C. Yao, W. Wu, S. Yan, and X. Bai, “Multi-oriented scene text detection via corner localization and region segmentation,” in Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition, 2018, pp.7553–7563.
[13] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in Porc. of IEEE Intl. Conf. on Computer Vision,2015, pp. 1520–1528.
[14 D. He, X. Yang, C. Liang, Z. Zhou, G. Alexander, I. Ororbia, D. Kifer,and C. L. Giles, “Multi-scale fcn with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild.” in Proc. of IEEE Intl. Conf. on Computer Vision and Pattern Recognition, 2017, pp.474–483.]
[15] Y. Wu and P. Natarajan, “Self-organized text detection with minimal post-processing via border learning,” in Porc. of IEEE Intl. Conf. on Computer Vision, 2017, pp. 5010–5019.