Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

最新推荐文章于 2024-08-08 16:13:04 发布

Tsukinousag1

最新推荐文章于 2024-08-08 16:13:04 发布

阅读量987

点赞数

文章标签：机器学习深度学习 python 人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_42411502/article/details/122556687

版权

1. Abstract

给定输入图像，首先使用文本区域建议网络(text region proposal network)来提取文本建议。然后，用改进网络(refinement network)对这些建议进行验证和改进。

本文提出了一种基于递归神经网络的自适应文本区域表示方法，用于文本区域细化，即在每个时间步预测一对边界点，直到预测到停止标签

通过这种方式，可以检测任意形状的文本区域，并用自适应数量的边界点表示。

2. Introduction

使用自适应文本区域表示法后，检测到的文本区域可以用自适应数量的成对点进行标记。

给定输入图像，首先使用文本区域建议网络(text-RPN)获取文本建议。该步骤还获得了输入图像的CNN feature extraction。
然后，文本建议通过一个Refinement network，其输入是通过将感兴趣区域(ROI)合并到CNN特征图中获得的文本建议特征。
Refinement network中存在三个分支，包括文本/非文本分类、边界框回归和基于RNN的自适应文本区域表示。
在RNN中，每个时间步预测一对边界点，直到预测到停止标签。通过这种方式，任意形状的文本区域可以用自适应数量的边界点表示。

3. Related work

在深度学习技术火热之前，传统的场景文本字符检测的方法主要是基于Traditional sliding window based and Connected component (CC) ，在深度学习技术火爆的现在，主流方法包含以下三种，(1)基于边界框回归，(2)基于分割，(3)混合。其中基于边界框回归的启发来自于Fasrter-RCNN,SSD目标检测，将文本作为object，预测其边界框，基于分割的方法是将图像由FPN网络处理成许多张通道特征图，每一张通道特征图是文本分割的结果。其中基于边界框回归的方法有TextBox , TextBoxes++ , DMPNet ,SegLink , EAST,TextSnake ，基于分割的方法有PSENet，PAN，TextBPN

4. Methodology

4.1. Adaptive text region representation

不同的场景文本区域可以由不同数量的点精确表示

考虑到文本区域通常具有近似对称的上边界和下边界，使用两个边界的成对点表示文本区域可能更合适

两种自适应文本区域表示方法。(a) 由角点表示的文本区域；(b) 文本区域由其上下边界上的成对点表示。

4.2. Text proposal

在所提出的方法中，骨干网络为SE-VGG16，如表所示，通过将Squeeze-and-Excitation (SE) blocks添加到VGG16中获得。

指出SE块通过显式地建模通道之间的相互依赖性，自适应地重新校准通道特性响应，由FC(全连接和Relu构成)锚定大小设置为{32、64、128、256、512}，以覆盖更多文本，同时保持纵横比{0.5、1、2}。

4.3. Proposal refinement

对于Proposal的分支，输入是每个文本提议的特征，这些特征是通过使用ROI池到使用SE-VGG16生成的CNN特征图获得的。该分支的输出目标是每个文本区域的自适应边界点数量。

由于不同文本区域的输出长度不同，因此使用RNN预测这些点是合理的

LSTM用于学习文本区域表示。每个时间步LSTM的输入是响应的text proposal的 ROI pooling features 。

点的坐标(xi，yi，xi+1，yi+1)用作建议方法中的回归目标，由于对不同的文本区域使用自适应点数，需要一个停止标签来表示预测网络何时停止，由于停止标签预测是一个分类问题，而坐标预测是一个回归问题，因此不适合将它们放在同一分支中，因此，在LSTM的每个时间步中有两个分支：一个用于点坐标回归(xi，yi，xi+1，yi+1)，另一个用于停止标签预测(stop/continue)。
当预测到stop，会将停止预测，并使用之前预测的点表示文本区域，之后这些成对的点会构成不同的多边形，需要用NMS后处理(基于文本区域的面积)

4.4. Training objective

Therefore, in this section, we only focus on the loss function of refinement network in proposal refinement. The loss defined on each proposal is the sum oftext/non-text classificationbounding box regressionboundary points regressionstop/continue label classification