Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation

1. Abstract

给定输入图像,首先使用文本区域建议网络(text region proposal network)来提取文本建议。然后,用改进网络(refinement network)对这些建议进行验证和改进。

本文提出了一种基于递归神经网络的自适应文本区域表示方法,用于文本区域细化,即在每个时间步预测一对边界点,直到预测到停止标签

通过这种方式,可以检测任意形状的文本区域,并用自适应数量的边界点表示。


2. Introduction
使用自适应文本区域表示法后,检测到的文本区域可以用自适应数量的成对点进行标记。
  1. 给定输入图像,首先使用文本区域建议网络(text-RPN)获取文本建议。该步骤还获得了输入图像的CNN feature extraction
  2. 然后,文本建议通过一个Refinement network,其输入是通过将感兴趣区域(ROI)合并到CNN特征图中获得的文本建议特征
  3. Refinement network中存在三个分支,包括文本/非文本分类边界框回归和基于RNN的自适应文本区域表示
  4. 在RNN中,每个时间步预测一对边界点,直到预测到停止标签。通过这种方式,任意形状的文本区域可以用自适应数量的边界点表示。

3. Related work

在深度学习技术火热之前,传统的场景文本字符检测的方法主要是基于Traditional sliding window based and Connected component (CC) ,在深度学习技术火爆的现在,主流方法包含以下三种,(1)基于边界框回归,(2)基于分割,(3)混合。其中基于边界框回归的启发来自于Fasrter-RCNN,SSD目标检测,将文本作为object,预测其边界框,基于分割的方法是将图像由FPN网络处理成许多张通道特征图,每一张通道特征图是文本分割的结果。其中基于边界框回归的方法有TextBox , TextBoxes++ , DMPNet ,SegLink , EAST,TextSnake ,基于分割的方法有PSENet,PAN,TextBPN


4. Methodology
4.1. Adaptive text region representation
不同的场景文本区域可以由不同数量的点精确表示

考虑到文本区域通常具有近似对称的上边界和下边界,使用两个边界的成对点表示文本区域可能更合适

两种自适应文本区域表示方法。(a) 由角点表示的文本区域;(b) 文本区域由其上下边界上的成对点表示。
4.2. Text proposal

在所提出的方法中,骨干网络为SE-VGG16,如表所示,通过将Squeeze-and-Excitation (SE) blocks添加到VGG16中获得。

指出SE块通过显式地建模通道之间的相互依赖性,自适应地重新校准通道特性响应,由FC(全连接和Relu构成)锚定大小设置为{32、64、128、256、512},以覆盖更多文本,同时保持纵横比{0.5、1、2}。


4.3. Proposal refinement

对于Proposal的分支,输入是每个文本提议的特征,这些特征是通过使用ROI池到使用SE-VGG16生成的CNN特征图获得的。该分支的输出目标是每个文本区域的自适应边界点数量。

由于不同文本区域的输出长度不同,因此使用RNN预测这些点是合理的

LSTM用于学习文本区域表示。每个时间步LSTM的输入是响应的text proposal的 ROI pooling features 。

点的坐标(xi,yi,xi+1,yi+1)用作建议方法中的回归目标,由于对不同的文本区域使用自适应点数,需要一个停止标签来表示预测网络何时停止,由于停止标签预测是一个分类问题,而坐标预测是一个回归问题,因此不适合将它们放在同一分支中,因此,在LSTM的每个时间步中有两个分支:一个用于点坐标回归(xi,yi,xi+1,yi+1),另一个用于停止标签预测(stop/continue)
当预测到stop,会将停止预测,并使用之前预测的点表示文本区域,之后这些成对的点会构成不同的多边形,需要用NMS后处理(基于文本区域的面积)


4.4. Training objective

Therefore, in this section, we only focus on the loss function of refinement network in proposal refinement. The loss defined on each proposal is the sum oftext/non-text classificationbounding box regressionboundary points regressionstop/continue label classification

分类损失中p表示text或者background分类计算after softmax,t表示分类为class t,其中背景被分类为class 0,text被分类为1

回归损失中vi表示的是bboxes中心点的坐标以及其宽高,v*表示的是predict的text proposal中心点的坐标以及宽高

回归损失中的ui表示的的是真实的边界点,u*是预测点

u*是由 xi *, yi *(相应的边界点)-xi * ,yi * (相应的中间点)/(w,h)(相应proposal的宽和高)

最外面套一层smooth_L1 loss

Lcls表示stop/continue,其本质也是一个二分类,类似于有文本/无文本


5. Experiments

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值