【总结】以Faster R-CNN为基础:
①使用区域建议生成网络RPN生成包围文本的水平边界框;
② 对预测出的每一个水平边界框,提取其不同池化尺寸的池化特征,同时利用聚合特征预测文本/非文本得分、水平边界框和最小倾斜框;
③利用倾斜非极大值抑制NMS获得最终结果。
一、引言
主要成果:
- 引入了一个新的用于任意方向场景文本的检测框架。RPN用于生成水平候选框,改进后的Fast R-CNN用于分类和倾斜框的预测优化;
- 将任意方向的文本检测转化为一个多任务问题。该方法的核心是对文本得分、水平框和最小倾斜框的预测;
- 为了充分利用文本特征,对每个RPN候选框进行了多个尺寸的ROI池化,然后连接特征用于检测;
- 在Faster R-CNN的基础上增加了一个更小的anchor用于检测小文本,并使用倾斜非极大值抑制对候选结果进行后处理。
二、方法
1. 问题定义
倾斜目标表示方法:
- (x1,y1,x2,y2,x3,y3,x4,y4)从左上角开始顺时针的四个点坐标,但有可能不是矩形;倾斜的矩形可以覆盖绝大部分的文本区域
- (x1,y1,x2,y2,θ):带角度的矩形框,但是角度信息不稳定,易混淆
- (x1,y1,x2,y2,h):从左上角开始顺时针的两个点坐标及高度,本文使用的表示法
2. 旋转区域CNN (R2CNN)
(1) RPN预测水平边界框
- 水平框的文本大概有以下几种情况:①垂直方向;②水平方向;③对角线方向, RPN能够为任意方向的文本生成水平框形式的文本区域;
- 针对小的文本场景,使用小尺寸的anchor:方式①是将Faster R-CNN原本(8, 16, 32)的anchor尺寸变换为更小的(4, 8, 16);方式②是在原anchor的基础上增加更小的尺度,即(4, 8, 16, 32),本实验证明方式①的效果更好
(2)不同池化尺寸的ROI Pooling
- 使用三种不同尺寸的ROI Pooling捕获更多的文本特征,用于后续的文本检测:7×7,11×3(垂直方向),3×11(水平方向)
(3)文本/非文本得分、水平框以及倾斜最小框的回归
- 基于RPN产生的候选框进行回归预测(同时预测水平和倾斜的,每个倾斜框都有一个水平框与之对应)
(4)倾斜的非极大值抑制
- inclined NMS:两个倾斜框之间的IOU
- 当两个倾斜文本距离很近时,普通的NMS会遗漏部分目标,但是倾斜的NMS能够同时检测出来
3. 训练目标 (多任务损失)
与Faster R-CNN的损失计算相同
(1)分类损失
(2)回归损失:水平框+倾斜框的损失,t是类别标签(文本时t=0, 背景时t=0),p是由softmax函数计算出的类别概率值。