1. 摘要
在深度神经网络和大规模数据集的推动下,自然场景文本检测方法在过去的几年里取得了巨大的进步,不断刷新各种基准记录。然而,如下图所示,受到描述文本表征(水平矩形框、旋转矩形框或任意四边形框)的限制,现有的方法在处理更自由形式的文本实例(例如弯曲文本)时可能会表现的差强人意,而这些文本实例往往在实际中非常常见。为了解决这个问题,本文提出了一种更灵活的场景文本表征,称为TextSnake,它能够以水平、多方向和弯曲的形式有效地表征文本实例。在TextSnake中,文本实例检测框表征为以对称轴为中心的有序的、重叠的圆盘序列,每个圆盘都有其可变的半径和方向。
2. TextSnake算法
2.1 文本表征
文本区域TR(黄色)利用一系列有序圆盘(蓝色)来表示,每个圆盘位于中心线TCL(绿色,即对称轴)上,圆盘的几何形状与半径r和方位θ相关联。其与传统的表征方式(轴对齐矩形、旋转矩形和四边形)相比,不考虑文本区域的形状和长度。
数学定义:由几个字符组成的文本实例t可以看作是一个有序列表S(t)。S(t)={D0,D1,…,Di,…,Dn},其中Di代表ith圆盘,n代表圆盘数。每个圆盘D又由一组几何属性表示,即D=(c, r, θ),其中c、r和θ分别是圆盘D的中心、半径和方向。半径r定义为t的局部区域宽度的一半,而方向θ是当前圆盘与下一个圆盘中心点连线与水平方向的夹角。当获得S(t)后,则可重建弯曲的文本区域。另外注意,圆盘不对应t中的单个字符,即圆盘是重叠的。
2.2 网络结构
基于FCN+FPN网络预测文本框,包含特征提取、特征合并、输出层三个阶段。
特征提取:VGG-16/19;
特征合并:按顺序叠加各个阶段,每个阶段由一个从上一阶段提取的特征图和相应的主干网络层组成。合并过程由下列方程定义: