1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

1.介绍 

        现代文本检测器能够捕捉各种不同挑战场景下的文本。然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例

        为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了一系列策略显著地提高了文本定位的质量

        EAST,一个非常具有代表性的单级(one-stage)场景文字检测器,已经证实对极端横纵比的文本实例检测不行。(可以去查看一下EAST的论文)

        这有两个主要原因:

        1)网络的感受野受限,所以不能够足够的信息来精确预测空间扩展的长文本实例。

        2)在EAST的NMS步骤,检测融合使用它们文本/非文本分类分数作为权重,这就忽视了由网络有限的感受野导致的它们质量差异,最后导致有偏差的几何估计

本文提出了一个带有定位细化的多方向场景文字检测器(MOST)。定位细化部分包括一个文本特征对齐模块(TFAM)和一个位置感知非极大抑制(PA-NMS)模块。

        前者将图像特征与粗略检测结果对齐,这可以动态地调整定位预测层地感受野。另一方面,后者根据原始检测被预测的位置自适应地合并原始检测,以集中于准确的预测,同时放弃不准确的预测。

2.表现效果         

        特别地,它们在MLT17验证集提高了4.0%和9.5%的表现(针对不同的IoU标准),在MTW1测试集上提高了5.1%。并且,我们提出的文本检测器保持了一个简单管道,运行非常快。

本文的贡献有4个方面:

1、我们提出了TFAM,它基于粗略检测动态调整感受野。

2、提出的PA-NMS通过融合基于位置的可信预测,更加改善了检测。

3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。

4、我们提出的MOST达到了在快速推理速度下,SOTA或者可竞争的表现。

Bottom-up methods把场景文字检测分为两步处理:1)检测基本元素;2)聚合这些元素来产生检测结果

3.方法策略

        Top-down methods通常遵循一个普通目标检测管道,并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes,EAST,TextBoxes++和RRD直接回归整个特征图上的文本边框参数,并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列,正相反,遵循的MaskRCNN类型框架,通过先使用一个区域提案网络(RPN)来产生文本框,再回归对应边框参数。这些方法通常有一个相对简单的后处理算法,可以避免复杂的聚合步骤。

        LOMO提出了一个可迭代细化模块(IRM)通过iterative refinement来感知整个长文字,它基于初步提案提取多倍RoI特征,组成一个多级检测器。

        它基于初步提案提取多倍RoI特征,组成一个多级检测器

PA-NMS表示位置感知非极大抑制。

实验:比较SimCLR与非SimCLR进行比较

3.1有监督学习

DataSets: 

public datasets of handwriten and scene text recognition.

Handwriten:IAM and CVL and French dataset RIMES

Scene dataset: syntheic dataset SynText and test  IIT5K,IC03 and IC13

本次工作提出一个对比性学习方法:SeqCLR,用于文本识别。将每个特征图看作是一系列的独立实例,得到 sub-word 级上的对比学习,例如每个图像提取几个正面的配对和多个负面的例子。另外,为获得有效的文本识别视觉表征,进一步提出新的增强启发式方法、不同的编码器架构和自定义投影头。

在手写文本和场景文本上的实验表明,当用学到的表征训练文本解码器时,所提出方法优于非序列对比法。此外,当监督量减少时,与监督训练相比,SeqCLR 明显提高了性能,而当用 100% 的标签进行微调时,SeqCLR 在标准手写文本识别基准上取得了最先进的结果。

3.2 位置感知非极大值抑制

文本和非文本可以有得分S(p),S(q)。并且对应权重为p(i)和q(i)

我们提出了位置感知的NMS,在合并过程中,根据方框的位置,保留检测到的方框的准确部分,同时删除不准确的部分

PA-NMS使用相应的位置感知得分的值,而不是文本/非文本分类得分,作为位置感知合并过程中框的权重,这可以帮助精确定位文字边界。

4.实验结果

 可以明显看到要么和baseline平行差不多,要么高于普遍的baseline。但是速度超过了一般的训练。

效果图

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值