Deep Direct Regression for Multi-Oriented Scene Text Detection
Wenhao He Xu-Yao Zhang Fei Yin Cheng-Lin Liu
link:https://arxiv.org/abs/1703.08289
摘要
在本文中,首先提供了一个新的视角来划分现有的高性能对象检测方法直接的和间接的回归。直接回归通过预测偏移量来执行边界回归一个给定的点,而间接回归预测了一些提议的偏移量。然后分析间接回归的缺点,最近的最先进的检测结构,像faster - rcnn和基于多导向场景文本检测的SSD,指出直接回归的潜在优势。为了验证了这一点,提出了一种基于多导向场景文本检测的深度直接回归方法。这种检测框架是简单有效,用一个全卷积网络和一步后处理。完全卷积网络在端到端优化方法和双任务输出,其中一个是文本和非文本之间的像素级分类,另一个是直接的回归确定四边形边界的顶点坐标。此方法对localizing incidental scene texts有益。在ICDAR2015 Incidental Scene Text benchmark F1-measure达到81,其他数据集也达到了标准方法水平。
1.介绍
介绍了直接回归与间接回归
间接回归的缺陷,简单说就是文字斜的,建议框不好下
介绍自己方法的三个创新性或者优点。
3.方法介绍
它由四个主要部分组成:前三个模块,即卷积特征提取、多级特征融合,多任务学习以及最后的后期处理部分recalled NMS(召回非极大抑制)是传统NMS的扩展。(非极大抑制)
3.1网络结构
特征提取感受域比输入图像大、因为是文字检测,所以网络没有一般的对象检测复杂,参数比较少。
特征融合为了检测不同尺寸,However, to reduce computation, we only up-sample the fused feature to quarter size of the input image.(四个上采样)
卷积单元还有BN Relu组成
多任务两个分支:
A.分类输出Mcls是s/4 * s/4 二阶张量,用来分类是不是文字,分数越高越可能是文字
B.回归任务Mloc输出s/4 *s/4 *8 张量,代表8个输出坐标(四边形顶点)
预测的每个点的矩形坐标就如以下公式(在输入图像要乘以4)
上采样是反卷积层
3.2Ground Truth 和 Loss Function
3.2.1分类任务
区分文本非文本的得分,作者在矩形框中心r内正的,其他的慢慢过渡到负的,r取短边的0.2倍。
短边在[32 × 0.5; 32 × 2]范围的才被用来训练
还采用了[7]介绍的负样本挖掘,短边长的区域(Not Care)和容易被定位负样本的区域预测值被迫趋于0
3.2.3回归任务
考虑到GT在大范围内变化,加了一个 Scale&Shift module模块,
转换z到z冒
这里假设最大文本大小400
这里选择平滑L1是因为比较L2对离群值没那么敏感。
3.3 Recalled Non-Maximum Suppression
召回非极大抑制在两个问题折中:1、两个单词之间往往被保留2、得分较少容易被遗弃
a.用传统方法得到Bsup
b.Bsup被转为得分最高的一个(融入最高分那块吧)
c.合并Bsup
3.4网络实现
训练样本被缩放成320*320,随机旋转0,pi/2,pi,3pi/2
从0.01到0.5,意为先训练学会识别文本在训练文本定位
测试的时候用多尺寸滑动策略,滑动大小160,窗口大小320*320,尺寸设置
Mcls>0.7时视为文本
后续处理中,overlap ratio设为0.5
4.实验
ICDAR2015附带场景文本,MSRA-TD500和ICDAR2013。前两个数据集有多导向文本第三种主要是水平文本。
4.1Benchmark Description 基准描述
4.2实现细节
SGD,20w迭代,学习率,3w是0.01,10w之前0.001,之后0.0001
环境: a workstation with 2.9GHz 12-core CPU, 256G RAM,GTX Titan X and Ubuntu 64-bit OS
4.3实验结果
4.3.1第一个数据集
4.3.2第二个数据集
图中红色是错误的或者没有检测出来的,主要是特殊的中文(we still fail to detect Chinese text lines that have wide character spaces or complex background.)
4.3.3第三个数据集
4.4 Rationality of High Performance
a.直接回归的检测结构避免了为不规则形状的多方向文本生成合适的建议,从而更加直观有效
b.不同的文本尺寸使得CNN学习到更多的特征(纹理和语义上下文),分类任务有益于回归任务
c.直接从端到端网络训练中得到位置信息,比起传统方法更能利用到特征信息