EAST: An Efficient and Accurate Scene Text Detector
作者:
一、Overview
主要的工作包含三个部分:
- 取消多阶段模型,提出2阶段模型,FCN+NMS
- 支持旋转矩形、四边形;支持词级别、句级别的文字检测
- 提出的算法在精度和速度都达到sota
二、算法介绍
2.1 网络设计
- 要点:大的文本区域需要高级特征;小的文本区域需要低级别的特征
- 借鉴U-net的灵感 ,使用up-sampling模块来进行特征融合
- 网络架构图图3,主要包含3个部分:特征提取分支、特征融合分支和输出层
-- 特征提取分支:使用ImageNet预训练的卷积网络,提取4个级别的卷积特征,分别为输入图片尺寸的1/32、1/16、1/8、1/4;原图中用的是PVANet
-- 特征融合分支:每层的输出特征,上采样到当前尺寸的二倍,然后与下一输出特征concate;在最后一个特征融合后,传给输出层
-- 输出层:最终的输出层使用一个1*1的卷积层将32通道的特征变成1通道的score map和多通道的geo map(5通道的robx/8通道的QUAD)
2.2 Label 生成
2.2.1 score map的生成
将标注的文本区域收缩,如图4a所示,搜索后所有文本区域内部像素置为1,其余置为0。文本区域收缩的步骤如下:
1)计算一个相对长度ri,计算公式为公式(3),其中D代表l2距离,pi代表四边形四个点中的一个
2)在两个对边中,选出均值较长的一对儿,称为长边,另外两边称为短边
3)长边的两个顶点pi和pi+1,分别收缩0.3*ri 和 0.3*ri+1 的长度
2.2.2 Geometry Map 生成
如上述架构所示,geo map存在两种表现形式,RBOX或者QUAD。
1)RBOX的geo map生成过程如图4(c-e),描述如下:
-- 生成一个旋转矩形来覆盖文本区域,保证生成的旋转矩形面积最小
-- 计算score为正样本的像素到旋转矩形4个边界的距离,做为RBOX的标签,共4通道
2)QUAD的geo map生成方式为:
-- 计算score为正样本的像素到四边形4个顶点的距离,作为QUAD的标签,共8通道
2.3 损失函数
损失函数如公式(4),其中,Ls代表score map的损失,Lg代表geo map的损失,λg=0.1
2.3.1 score map loss:
主要使用平衡交叉熵损失,如公式(5)所示,其中Y^是预测score,Y*是gt。参数β是平衡因子,如公式(6)。
2.3.2 geo map loss:
对了让大的目标和小目标对损失函数具有相同的作用,对RBOX使用IOU-loss,对QUAD使用平滑后的L1loss
1)RBOX
IOU loss的计算公式如公式(7),其中R^为预测的水平矩形,R*为GT的水平矩形
接下来,旋转角度的损失函数计算公式为公式(10)
最终,RBOX的损失函数为二者加和,如公式(11)所示,其中λθ设置为10
2)QUAD
扩展了smoothed-L1损失,如公式(13)所示,其目的是减少长短边对损失的影响。其中,Q^代表预测的文本框四边形的8个坐标{x1, y1, x2, y2, x3, y3, x4, y4};Q*代表标注内容;代表从所有可能的点对点的计算顺序中找到一个最小的;是最短边长度,用来做归一化
2.4 后处理之Locality-Aware NMS
- 解决问题:传统NMS的计算复杂度:O(n^2)
- 依据原理:相邻像素高度相关
- 方法:
1)逐行合并
2)相同行的像素合并:每个像素的bbox迭代与上一个当前bbox合并,直到完成最后一个相邻像素的合并
3)合并方法:如下图,总的来说,就是按照置信度加权,计算bbox的边界位置,更新置信度
具体算法描述如算法1所示
- 计算复杂度:最优O(n),最差情况O(n^2)
3 实验效果
3.1 三种basenet
1)VGG16
- 支持finetuning,应用广泛
- 感受野小,conv5_3的感受野为196
- 网络参数多
2)PVANET
- 小、轻量级
- PVANET 2x是原始PVANET的输出通道数量的两倍
- 感受野为809
3.2 三个数据集
1)IC5
2)COCO-Text
3)TD-500
3.3 速度
4 局限
1)检测器能够处理的最大文本实例与网络感受野有关系,因此对长文本不友好(这个局限可以通过FPN的引入解决了)
2)竖向文本预测不友好
5 Future work
1)调整geo map,适配弯曲文本
2)集成一个文本识别器
3)将思想拓展到通用目标检测