1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

热爱文学的码农

已于 2022-03-08 21:20:50 修改

阅读量1.2k

点赞数

文章标签：计算机视觉深度学习人工智能

于 2022-01-14 21:04:43 首次发布

本文链接：https://blog.csdn.net/qq_41887799/article/details/122502144

版权

1.介绍

现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例

为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量

EAST，一个非常具有代表性的单级（one-stage）场景文字检测器，已经证实对极端横纵比的文本实例检测不行。（可以去查看一下EAST的论文）

这有两个主要原因：

1）网络的感受野受限，所以不能够足够的信息来精确预测空间扩展的长文本实例。

2）在EAST的NMS步骤，检测融合使用它们文本/非文本分类分数作为权重，这就忽视了由网络有限的感受野导致的它们质量差异，最后导致有偏差的几何估计

本文提出了一个带有定位细化的多方向场景文字检测器（MOST）。定位细化部分包括一个文本特征对齐模块（TFAM）和一个位置感知非极大抑制（PA-NMS）模块。

前者将图像特征与粗略检测结果对齐，这可以动态地调整定位预测层地感受野。另一方面，后者根据原始检测被预测的位置自适应地合并原始检测，以集中于准确的预测，同时放弃不准确的预测。

2.表现效果

特别地，它们在MLT17验证集提高了4.0%和9.5%的表现（针对不同的IoU标准），在MTW1测试集上提高了5.1%。并且，我们提出的文本检测器保持了一个简单管道，运行非常快。

本文的贡献有4个方面：

1、我们提出了TFAM，它基于粗略检测动态调整感受野。

2、提出的PA-NMS通过融合基于位置的可信预测，更加改善了检测。

3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。

4、我们提出的MOST达到了在快速推理速度下，SOTA或者可竞争的表现。

Bottom-up methods把场景文字检测分为两步处理：1）检测基本元素；2）聚合这些元素来产生检测结果

3.方法策略

Top-down methods通常遵循一个普通目标检测管道，并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes，EAST，TextBoxes++和RRD直接回归整个特征图上的文本边框参数，并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列，正相反，遵循的MaskRCNN类型框架，通过先使用一个区域提案网络（RPN）来产生文本框，再回归对应边框参数。这些方法通常有一个相对简单的后处理算法，可以避免复杂的聚合步骤。

LOMO提出了一个可迭代细化模块（IRM）通过iterative refinement来感知整个长文字，它基于初步提案提取多倍RoI特征，组成一个多级检测器。

它基于初步提案提取多倍RoI特征，组成一个多级检测器

PA-NMS表示位置感知非极大抑制。

实验：比较SimCLR与非SimCLR进行比较

3.1有监督学习

DataSets:	public datasets of handwriten and scene text recognition.	Handwriten:IAM and CVL and French dataset RIMES
	Scene dataset: syntheic dataset SynText and test IIT5K,IC03 and IC13

本次工作提出一个对比性学习方法：SeqCLR，用于文本识别。将每个特征图看作是一系列的独立实例，得到 sub-word 级上的对比学习，例如每个图像提取几个正面的配对和多个负面的例子。另外，为获得有效的文本识别视觉表征，进一步提出新的增强启发式方法、不同的编码器架构和自定义投影头。

在手写文本和场景文本上的实验表明，当用学到的表征训练文本解码器时，所提出方法优于非序列对比法。此外，当监督量减少时，与监督训练相比，SeqCLR 明显提高了性能，而当用 100% 的标签进行微调时，SeqCLR 在标准手写文本识别基准上取得了最先进的结果。

3.2 位置感知非极大值抑制

文本和非文本可以有得分S(p),S(q)。并且对应权重为p(i)和q(i)

我们提出了位置感知的NMS，在合并过程中，根据方框的位置，保留检测到的方框的准确部分，同时删除不准确的部分

PA-NMS使用相应的位置感知得分的值，而不是文本/非文本分类得分，作为位置感知合并过程中框的权重，这可以帮助精确定位文字边界。

4.实验结果

可以明显看到要么和baseline平行差不多，要么高于普遍的baseline。但是速度超过了一般的训练。

效果图

热爱文学的码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

1.介绍现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量EAST，一个非常具有代表性的单级（one-stage）场景文字检测器，已经证实对极端横纵比的文本实例检测不行。（可以去查看一下EAST的论文）这有两个主要原因：1）网络的感受野...
复制链接

扫一扫