【论文阅读】PSENet（CVPR2019）

最新推荐文章于 2024-02-02 18:27:47 发布

络小绎

最新推荐文章于 2024-02-02 18:27:47 发布

阅读量613

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_35756383/article/details/118607293

版权

论文阅读专栏收录该内容

18 篇文章 4 订阅

订阅专栏

PSENet是基于分割的文本检测方法，通过逐级尺寸扩张网络实现精确的任意形状文本实例检测，解决了基于回归方法对弯曲文本处理不佳和基于分割方法难以区分相邻文本的问题。网络结构包括ResNet作为骨干网络，结合FPN进行特征融合，并通过多尺度标签生成和损失函数优化训练。实验表明，PSENet在多个数据集上表现出优越的性能，尤其在弯曲和多方向文本检测上。

摘要由CSDN通过智能技术生成

论文题目：Shape Robust Text Detection with Progressive Scale Expansion Network

论文地址：https://arxiv.org/abs/1903.12473

代码地址：https://github.com/whai362/PSENet

文章贡献：

提出了逐级尺寸扩张网络（Progressive Scale Expansion Network，PSENet），它是一种基于分割的文本检测方法，能够精确定位任意形状的文本实例，且对相邻的实例可以区分识别。

该网络在多个数据集上有先进结果。

1 背景与动机

现有的基于CNN的场景文本检测方法可分为两类：基于回归的方法和基于分割的方法。

基于回归的方法通常检测的文本形状为矩形或四边形，而不能处理任意形状的文本。如下图b中，4行文本应为弯曲形状，如果检测框为矩形则不能很好的包含对应文本信息。

基于分割的方法基于像素级的分类来定位文本实例，可以定位弯曲文本，但是很难将相近文本区分开。如上图所示，图a中应为4行文本，而图c只识别为了2行，这将对后续的文本识别带来困难。

因此论文提出PSENet，能够精确定位任意形状的文本实例，且对相邻的实例可以区分识别（图d）。

2 相关工作

（1）基于回归的方法

通常基于一般的目标检测框架，如Faster R-CNN和SSD。

TextBoxes修改了anchor的尺寸和卷积内核的shape，以调整文本的不同纵横比；EAST使用FCN直接预测每个像素的得分图、旋转角度和文本框；RRPN采用了Faster R-CNN，提出了RPN部分的旋转建议，用于检测任意方向的文本；RRD从两个单独的分支中提取特征图进行文本分类和回归，从而更好的进行长文本检测。

然而，大多数基于回归的方法通常需要设计复杂的anchor且网络阶段繁琐，这可能需要彻底的调优，导致性能欠佳。且该方法主要针对multiple oriented文本检测，对弯曲文本不友好。

（2）基于分割的方法

Zhang等人首先采用FCN来提取文本块，并通过MSER从这些文本块中检测候选字符；Yao等人将一个文本区域表述为文本区域和方向等各种属性，然后利用FCN预测相应的热图；Lyu等人利用角点定位来寻找适合文本实例的不规则四边形；PixelLink通过预测不同文本实例之间的像素连接来分隔相邻文本；TextSnake使用ordered disks表示曲线文本，用于曲线文本检测；SPCNet使用实例分割框架，利用上下文信息检测任意形状的文本，同时抑制假阳性。

上述方法均在水平方向和multiple oriented上有不错的效果，但是除了TextSnake，都没有特别考虑弯曲文本的检测，而TextSnake耗时长且后处理步骤复杂。