ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

目前文本检测的两大挑战:
1)大多数方法在文本检测中存在false positives(本来是负样例,分类成正样例。又称假阳性FPs)情况。
2)现实生活中文本的大尺度变化使得网络难以学习样本。

论文中提出的ContourNet网络有效实现对任意形状文本的准确检测。
1、提出了一种自适应区域建议网络(Adaptive-RPN),该网络只关注于预测框与ground-truth边界框on the Intersection over Union (IoU) values来生成text proposals(预测框)。
【IoU:交并比,目标检测中使用的一个概念,是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值。】
2、在此基础上提出一种新的局部正交纹理感应模块(Local Orthogonal Texture-aware Module 【LOTM】),在两个正交方向上对建议特征的局部纹理信息进行建模,并用一组contour point(边界点) 来表示文本区域。
如图,任意方向纹理信息共同建模(上)与两个正交方向纹理信息建模(下)对比。通过两个正交方向纹理信息建模可以有效抑制FPs
网络框架图
网络框架图。主要包括三个部分:1、Adaptive-RPN,2、LOTM,3、Point-Rescoring Algorithm
说明:
对于给定一个输入图片,Adaptive-RPN首先通过自动学习文本区域的一组边界点来生成text proposals(预测框)。Adaptive-PRN的训练目标是不断优化预测框和真实框之间IoU的值。为了获取文本框中不同的纹理特征,作者提出一种局部正交纹理感知模块(LOTM),在两个正交方向上建模提取特征的局部纹理信息,并在两个不同热图(heatmaps)中用临界点表示文本区域,其中任何一种只在特定方向上响应纹理特征。

体系结构:
首先,构建骨干网络生成共享特征图,受到FPN启发,在解码层实现横向连接,构建一个类似FPN架构的主干网络。Adaptive-RPN模块通过限定一些锚点的边界空间范围来生成候选框;然后,LOTM的输入是通过使用可变性的RoI池化和双线性插值得到共享特征图的建议特征,然后LOTM模块在两个正交方向上对局部纹理信息进行建模,从建议特征中解码contour point(边界点),并用边界点表示文本区域;最后,Point Re-scoring Algorithm模块,通过耦合水平和竖直方向的轮廓响应分数来过滤FPs。

模块说明:
一、Adaptive-RPN
RPN是目标检测里一种流行的方法,目的是预测一个4维回归向量来优化当前建议边框,将当前的建议边框Bc回归到真实文本框Bt。
对比RPN与adaptive-RPN结果。
上述的4维回归向量是为了提高预测值和真实边框之间的IoU值,但是对尺度变化非常敏感。通常情况下啊正样本边框通过IoU的值来选择(例如IoU>0.5),但是,具有相同IoU的值的不同尺度的边框可能具有不同的Ln范数距离。由于优化Ln范数损失和提高IoU值之间没有很强的相关性,作者猜测,这种基于CNN的方法很难在场景文本检测中学习有大尺度变化的样本。
为了解决这个问题,作者提出Adaptive-RPN,用来只关注与预测与真实边框的IoU值,用n个预定义的点(1个中心点,n-1个边界点)来代替4维向量,这个优化可以表示为:
在这里插入图片描述
RPN左,adaptive-RPN右。红点是候选框的预定义点,绿点是已知定义点,黄色虚线是回归偏移量传统只考虑矩形空间范围,这篇文章自适应考虑形状和语义重要的局部区域,从而更精准定位候选框。

二、LOTM(局部正交纹理模块)
左边LOTM,右边Point re-scoring algorithm(仅用于测试阶段)
作者将边缘检测算子的思想融入LOTM中,其中LOTM包含两个分支,最上面一个是水平分支,用1k的卷积核在特征图中滑动,对水平方向的局部纹理信息进行建模,只关注k范围内的纹理特征,实验证明计算量小且运算快,同样用k1的卷积核对垂直方向建模,其中k是超参数,来控制纹理特征感受野的大小。最后通过sigmoid层将两个方向上将heatmap归一化到【0,1】,这样就可以在两个正交方向上检测文本区域,并在两个不同热图中用contour point(锚点)来表示,每个热图只对某一方向上的纹理特征作出响应。

三、点重评分算法
利用point re-scoring algorithm对LOTM的两个热图进行进一步处理,通过两个正交方向上的响应值来有效抑制假阳性预测,如算法一,对于不同热图中的点通过非极大值抑制(Non-Maximum Suppression NMS)进行处理,以获得更好地表示;然后只选择两个热图中反应明显的点作为候选点,这是为了抑制具有强单向响应或者弱正交响应预测;最后选取一些高质量的锚点组成多边形来表示文本区域。
这里θ = 0.5,NMSh和NMSv分别表示水平方向和垂直方向的NMS。
算法一

训练目标

对于contour的学习,损失函数为:
在这里插入图片描述
这里的六个损失函数分别表示为AdaptiveRPN分类损失、AdaptiveRPN回归损失、锚点框的水平损失函数、锚点框的垂直损失函数、锚点框的分类损失函数、锚点框的回归损失函数。前面的超参数代表六种损失函数的重要性。在实验中,后四个都设置为1。
Adaptive-RPN是优化IoU损失函数用来实现在多尺寸变化的鲁棒性,损失函数如下:
在这里插入图片描述
对于第二个回归损失函数用的是交叉熵损失函数。
**LOTM:**为了解决背景和前景大小不平衡的问题,采用类平衡交叉熵损失进行轮廓点学习。损失函数表达式:
在这里插入图片描述
yi是真实值,pi是预测值。分子分别表示负样本和正样本数量,N是负样本和正样本总和。
水平的损失函数和垂直的损失函数和这个一样。

后面两个评分损失函数和faster r-cnn一样。

实验

数据集ICDAR2015,CTW1500,Total-Text。
第一个数据集有1500张图片(1000张训练,500张测试),每个单词标注有四个点,这里图片的文本是任意方向的。
第二个数据集有1500张图片(1000训练,500测试),每个单词标注有14个点,这里图片的文本是曲线的。
第三个数据集有1555张图片(1255训练,300测试),图片文本有水平,多方向,弯曲。

消融实验
对于Adaptive-RPN中,预定义点n的设置为9。
在这里插入图片描述
在图片大小中等的情况下提升较高。
在这里插入图片描述
LOTM卷积核大小为13,31性能最好。
在这里插入图片描述
比较LOTM在单一方向建模,任意方向共同建模,两个正交方向共同建模的比较。
在这里插入图片描述

总结

这篇论文里提出的ContourNet网络主要解决两个问题:
1)在文本表示中的假阳性问题
2)文本大尺度变化问题
网络一共由三个部分组成:Adaptive-RPN,LOTM、Point Re-scoring Algorithm
Adaptive-RPN:通过约束一些语义点的空间扩展来定位文本的初始建议
LOTM:在两个正交方向上对局部纹理信息进行建模,并用contour point点来表示文本区域
Point Re-scoring Algorithm:通过考虑两个正交方向上的响应值来过滤FPs。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一蓑烟雨渡平生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值