为了准确地定位图像中面向的和弯曲的场景文本,首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了 与标准的边界框表示相比,其计算开销可以忽略不计。
- 网络结构
网络结构示意图如下,
检测head在feature map之后,包含了4个stride=1,padding=1的3*3卷积核。
- 贝塞尔曲线
论文使用贝塞尔曲线来拟合检测框的边界,贝塞尔曲线简介可以参考:https://www.jianshu.com/p/0c9b4b681724
论文基于三次贝塞尔曲线,将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下:
- GT生成
论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。
- BezierAlign
论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样,或者说,将弯曲特征图还原成矩形的特征图,从而能够送入CTC识别模型。
矩形特征图的尺寸为
w
o
u
t
∗
h
o
u
t
w_{out}*h_{out}
wout∗hout,
g
i
=
(
g
i
w
,
g
i
h
)
g_i=(g_iw, g_ih)
gi=(giw,gih)是特征图上的像素点,需要用弯曲检测区域上的像素值来填充。
b
p
bp
bp和
t
p
tp
tp分别为贝塞尔曲线的上下边界,因此每个采样点
o
p
op
op就可以用以下公示计算出来。利用op的位置,可以很容易地应用双线性插值来计算结果。
之前的采样方法与BezierAlign的比较如图所示:
- 识别
ABCNet的识别部分是一个简单的CRNN+CTC,识别模型的网络结构如下:
识别的loss是CTCloss,论文好像没有给出检测loss的公式,以及检测和识别loss是如何组合的,二者之间的权重。
- 实验
使用resnet50作为主干网络,使用FPN提取特征。
预训练数据集为coco-text,ICDAR-MLT。与其他算法的对比如下:
弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下:
文章中使用的数据集都是英文数据集,所以无法确认是否适用于中文数据集。