PSENet:Shape Robust Text Detection with Progressive Scale Expansion Network
一、现状:文本检测的主流方法:基于回归(regression-based)、基于分割(segmentation-based)。
基于回归(regression-based)的方法通常基于通用对象检测框架,例如Faster R-CNN [31]和SSD [22]。 TextBoxes [19]修改了卷积核的锚定比例和形状,以适应文本的各种纵横比。 EAST [42]使用FCN [25]直接预测每个像素的得分图,旋转角度和文本框。 RRPN [28]采用了Faster R-CNN,并提出了RPN部分的旋转建议以检测任意方向的文本。 RRD [20]从两个单独的分支中提取了用于文本分类和回归的特征图,以更好地检测长文本。但是,大多数基于回归的方法通常需要复杂的锚设计和繁琐的多个阶段,这可能需要详尽的调整并导致次优性能。 此外,上述论文是专为多种方向的文本检测而设计的,在处理实际在实际场景中广泛分布的曲线文本时可能会不足。
基于分割(segmentation-based)的方法主要受全卷积网络(FCN)的启发[25]。 Zhang等[39]首先采用FCN提取文本块,并通过MSER从这些文本块中检测字符候选。 Yao等[38]将一个文本区域表示为多种属性,例如文本区域和方向,然后利用FCN预测相应的热图。 Lyu等人[27]利用角点定位为文本实例找到合适的不规则四边形。 PixelLink [4]通过预测不同文本实例之间的像素连接来分离彼此靠近的文本。 最近,TextSnake [26]使用有序磁盘来表示曲线文本以进行曲线文本检测。 SPCNet使用实例分割框架并利用上下文信息来检测任意形状的文本,同时抑制误报。
二、文本检测面对的挑战:
(1)大多数现有的算法都是四边形边界框,而四边形边界框对于定位具有任意形状的文本并不准确;(基于回归算法面临的挑战)
(2)彼此靠近的两个文本实例可能相互覆盖,而导致错误检测(基于分割面对挑战)。如图1所示,

三、传统的基于分割的算法<

PSENet是一种创新的文本检测算法,基于分割和内核扩展,能精确检测任意形状的文本实例,尤其擅长处理密集和曲线文本,通过渐进式比例扩展算法有效分离相邻文本。
最低0.47元/天 解锁文章
795

被折叠的 条评论
为什么被折叠?



