0 摘要
现在的文本检测算法有两个挑战:
(1)可以很好的检测四边形,但是对任意形状不好使。
(2)文本区域太近,导致误检。
基于分割的方法可以解决第一个问题,但是对第二个问题却无能为力。PSENet可以很好检测任意形状,psenet生成不同尺度的kernel,逐步扩展小尺度kernel直到覆盖整个文本形状。小的kernel之间有更大的几何间隔,因为对于邻近的文本区域非常有效。
1 介绍
基于CNN的文本检测方法粗分为两类:基于检测的方法和基于分割的方法。
基于回归的方法可以检测带方向的矩形或者四边形,但是不能处理任意四边形。
基于分割的方法很难将很近的文本区域分开。
PSENet 的方法:
- 进行像素级别的分割。
- 逐步进行尺度扩张算法。每个文本区域分配多个分割区域,我们用kernel表示。每个kernel有着和文本区域一样的形状,但是尺度不同。
- 为获得最终的检测结果,我们采用基于BFS的逐步尺度扩张算法。(1)从最小尺度kernel开始;(2)通过更大的kernel扩张它们的区域;(3)直至找到整个文本区域结束。
使用PSENet有三个潜在原因:
- 小尺度kernel更容易将他们分开。
- 小尺度kernel不能覆盖整个文本区域。
- 逐步尺度扩张算法是一种简单高效的方法。
2 相关工作
2.1 基于回归的方法 regression-based methods
大部分基于回归的方法存在的问题:
- 需要复杂的anchor的设计
- 笨重的多阶段。
- 不能处理弯曲文本(curve texts)。
2.2 基于分割的方法 segmentation-based methods
过去基于分割的方法很少关注任意形状的文本。TextSnake可以检测任意形状,但是非常耗时,并且有复杂的后处理。
3 方法
3.1 整体流程
- 使用ResNet作为骨干网络。