1. Abstract
给定输入图像,首先使用文本区域建议网络(text region proposal network)来提取文本建议。然后,用改进网络(refinement network)对这些建议进行验证和改进。
本文提出了一种基于递归神经网络的自适应文本区域表示方法,用于文本区域细化,即在每个时间步预测一对边界点,直到预测到停止标签
通过这种方式,可以检测任意形状的文本区域,并用自适应数量的边界点表示。
2. Introduction
- 给定输入图像,首先使用文本区域建议网络(text-RPN)获取文本建议。该步骤还获得了输入图像的CNN feature extraction。
- 然后,文本建议通过一个Refinement network,其输入是通过将感兴趣区域(ROI)合并到CNN特征图中获得的文本建议特征。
- Refinement network中存在三个分支,包括文本/非文本分类、边界框回归和基于RNN的自适应文本区域表示。
- 在RNN中,每个时间步预测一对边界点,直到预测到停止标签。通过这种方式,任意形状的文本区域可以用自适应数量的边界点表示。
3. Related work
在深度学习技术火热之前,传统的场景文本字符检测的方法主要是基于Traditional sliding window based and Connected component (CC) ,在深度学习技术火爆的现在,主流方法包含以下三种,(1)基于边界框回归,(2)基于分割,(3)混合。其中基于边界框回归的启发来自于Fasrter-RCNN,SSD目标检测,将文本作为object,预测其边界框,基于分割的方法是将图像由FPN网络处理成许多张通道特征图,每一张通道特征图是文本分割的结果。其中基于边界框回归的方法有TextBox , TextBoxes++ , DMPNet ,SegLink , EAST,TextSnake ,基于分割的方法有PSENet,PAN,TextBPN
4. Methodology
4.1. Adaptive text region representation
考虑到文本区域通常具有近似对称的上边界和下边界,使用两个边界的成对点表示文本区域可能更合适
4.2. Text proposal
在所提出的方法中,骨干网络为SE-VGG16,如表所示,通过将Squeeze-and-Excitation (SE) blocks添加到VGG16中获得。
指出SE块通过显式地建模通道之间的相互依赖性,自适应地重新校准通道特性响应,由FC(全连接和Relu构成)锚定大小设置为{32、64、128、256、512},以覆盖更多文本,同时保持纵横比{0.5、1、2}。
4.3. Proposal refinement
对于Proposal的分支,输入是每个文本提议的特征,这些特征是通过使用ROI池到使用SE-VGG16生成的CNN特征图获得的。该分支的输出目标是每个文本区域的自适应边界点数量。
由于不同文本区域的输出长度不同,因此使用RNN预测这些点是合理的
LSTM用于学习文本区域表示。每个时间步LSTM的输入是响应的text proposal的 ROI pooling features 。
点的坐标(xi,yi,xi+1,yi+1)用作建议方法中的回归目标,由于对不同的文本区域使用自适应点数,需要一个停止标签来表示预测网络何时停止,由于停止标签预测是一个分类问题,而坐标预测是一个回归问题,因此不适合将它们放在同一分支中,因此,在LSTM的每个时间步中有两个分支:一个用于点坐标回归(xi,yi,xi+1,yi+1),另一个用于停止标签预测(stop/continue)。
当预测到stop,会将停止预测,并使用之前预测的点表示文本区域,之后这些成对的点会构成不同的多边形,需要用NMS后处理(基于文本区域的面积)
4.4. Training objective
Therefore, in this section, we only focus on the loss function of refinement network in proposal refinement. The loss defined on each proposal is the sum oftext/non-text classificationbounding box regressionboundary points regressionstop/continue label classification
分类损失中p表示text或者background分类计算after softmax,t表示分类为class t,其中背景被分类为class 0,text被分类为1
回归损失中vi表示的是bboxes中心点的坐标以及其宽高,v*表示的是predict的text proposal中心点的坐标以及宽高
回归损失中的ui表示的的是真实的边界点,u*是预测点
u*是由 xi *, yi *(相应的边界点)-xi * ,yi * (相应的中间点)/(w,h)(相应proposal的宽和高)
最外面套一层smooth_L1 loss
Lcls表示stop/continue,其本质也是一个二分类,类似于有文本/无文本