目前的场景文本检测大致可以分为:基于回归检测和基于分割的方法,以及将两者结合的方法。
基于回归检测
通常基于卷积神经网络(CNN)的检测方法是将多个预测得到的候选区域输入到 CNN进行特征提取,并通过分类确定候选区域是否包含目标实例。
文献 Synthetic data for text localisation in natural images[C] 基于全卷积网络(FCN)和 YOLO的思想,提出了一种霍夫投票的变体,利用平移不变性将局部预测器作为 CNN 的最后一层,模型同时密集地预测各像素的类别标签以及基于该像素的预测边界框的参数,显著提高了检测性能。但是整个网络结构仍然过于复杂,严重影响了训练时间,且不能很好地检测旋转文本。
文献 [Deep matching prior network:toward tighter multi-oriented text detection[C]] 中的深度匹配先验网络(DMPNet)首次提出用四边形检测旋转文本。该模型首先利用四边形滑动窗口粗略地召回文本。然而利用滑动窗口定位文本的方法,通常无法避免不必要的滑动窗口与文本实例之间的区域重叠甚至信息丢失。为此提出了一种共享蒙特卡罗方法,使得在计算重叠区域面积时更加高速和精准。该模型摒弃了传统的矩形检测框,有效解决了检测旋转文字时的背景冗余和信息缺失等问题。但是 DMPNet 所使用的滑动窗口是人工设定的,在检测某些极