文本检测算法：PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network

最新推荐文章于 2024-12-20 16:36:13 发布

原创

最新推荐文章于 2024-12-20 16:36:13 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

PSENet是一种创新的文本检测算法，基于分割和内核扩展，能精确检测任意形状的文本实例，尤其擅长处理密集和曲线文本，通过渐进式比例扩展算法有效分离相邻文本。

PSENet：Shape Robust Text Detection with Progressive Scale Expansion Network

一、现状：文本检测的主流方法：基于回归（regression-based）、基于分割（segmentation-based）。

基于回归（regression-based）的方法通常基于通用对象检测框架，例如Faster R-CNN [31]和SSD [22]。 TextBoxes [19]修改了卷积核的锚定比例和形状，以适应文本的各种纵横比。 EAST [42]使用FCN [25]直接预测每个像素的得分图，旋转角度和文本框。 RRPN [28]采用了Faster R-CNN，并提出了RPN部分的旋转建议以检测任意方向的文本。 RRD [20]从两个单独的分支中提取了用于文本分类和回归的特征图，以更好地检测长文本。但是，大多数基于回归的方法通常需要复杂的锚设计和繁琐的多个阶段，这可能需要详尽的调整并导致次优性能。此外，上述论文是专为多种方向的文本检测而设计的，在处理实际在实际场景中广泛分布的曲线文本时可能会不足。

基于分割（segmentation-based）的方法主要受全卷积网络（FCN）的启发[25]。 Zhang等[39]首先采用FCN提取文本块，并通过MSER从这些文本块中检测字符候选。 Yao等[38]将一个文本区域表示为多种属性，例如文本区域和方向，然后利用FCN预测相应的热图。 Lyu等人[27]利用角点定位为文本实例找到合适的不规则四边形。 PixelLink [4]通过预测不同文本实例之间的像素连接来分离彼此靠近的文本。最近，TextSnake [26]使用有序磁盘来表示曲线文本以进行曲线文本检测。 SPCNet使用实例分割框架并利用上下文信息来检测任意形状的文本，同时抑制误报。

二、文本检测面对的挑战：

（1）大多数现有的算法都是四边形边界框，而四边形边界框对于定位具有任意形状的文本并不准确；(基于回归算法面临的挑战)

（2）彼此靠近的两个文本实例可能相互覆盖，而导致错误检测（基于分割面对挑战）。如图1所示，