TextMountain: Accurate Scene Text Detection via Instance Segmentation论文阅读

TextMountain: Accurate Scene Text Detection via Instance Segmentation

通过实例分割的准确的场景文本检测

论文核心思想

主要贡献一:
我们提出了一种新的方法——文本山,它由TS, TCBP and TCD组成。实验证明,TCBP 能够很好地分离文本行并对其进行分组,同时 TCD能够更好地帮助TCBP学习。
在这里插入图片描述
TS:
TS将每个像素分类为文本或非文本,我们将文本多边形内的像素标记为正样本,而不是负样本。
类不平衡是一个严重的问题,因为一幅图像中的大多数像素是负样本,所以有许多方法可以解决类不平衡问题,如类平衡交叉熵,比例选择和硬负挖掘。在本文中,我们使用硬负挖掘(hard negative mining),选择最hard的负样本,正负样本之比设为1/3。

TCBP:
将中心-边界视为概率图,因为我们认为边界或中心的硬决策并不总是准确的。并且TCBP中包含的信息更多,概率增长的上升方向指向文本中心,有利于像素的分组。在我们的设计中,弯曲文本的定义与四边形相同,都是基于文本行的四条边(弯曲的文本行也有四条边,但其中两条可能是弯曲的)。为了简单起见,我们用四边形文本行来说明我们的方法,它可以很容易地扩展到曲线文本行。
在这里插入图片描述
在这里插入图片描述
也就是四条边的垂线,到焦点的距离,选最小的,占宽度的比值为这个点的概率值。

TCD:
TCD上的每个像素都将指向它所属的中心,它就像是最快的山路。
在这里插入图片描述
同样利用上面那个点的垂线图,计算这个点的向心概率值。

主要贡献二:
提出了一个可以并行计算的分组思想,加快推理阶段的后处理速度。
对于TCBP,我们选择每个像素的8邻域中最大的点作为下一个点。
对于TCD,下一点计算如下
在这里插入图片描述
其中ux是TCD的预测向量。我们量化方向,因为只有8个相邻方向nex是量化的结果
当定向图生成后,山脚下的每一个像素都会一步一步爬上它的山峰,用山峰的颜色来描绘自己。每个点的方向是确定的,所以这个任务可以并行高效地解决,所有像素可以同时爬山。不需要每个像素都走过所有的路径,当山脚下的一些像素爬到山中间的时候,山中间的像素已经爬到山顶并且被着色了,我们可以用山中间的像素的颜色直接给山脚下的像素着色。实际上,我们增加了计算线程的数量,但只是额外产生了一点计算复杂性。为了加速算法和避免循环,我们添加了一个块状态图,它指示该路由是否是块。程序总结在算法1中
在这里插入图片描述

培训与推理细节

CPU is Intel® Core™i7-7700K and GPU is GeForce GTX 1080Ti.

backbone: resnet50
FPN特征通道统一:256
用随机梯度下降法训练
采用“多元”学习率政策
在这里插入图片描述
base_Lr = 0.005
power = 0.9
重量衰减设置为0.0001,动量设置为0.9,批量设置为12。
文本中心实例评分阈值设置为0.7,TS上文本边框阈值设置为0.6。
采用了数据增强
手段为随机剪裁,随机旋转
随机剪裁在四边形文本中进行错位
在多边形文本中不进行。

我们用TS、TCBP和TCD训练我们的模型,但在推理中只使用TS和TCBP。

对于MLT和RCTW-17,我们只使用它们各自的数据集来训练我们的模型。但是对于ICDAR2015和SCUT-CTW1500,我们的模型在MLT进行了预处理,然后在它们各自的数据集上进行了微调。

结果分析

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值