SPTS: Single-Point Text Spotting阅读笔记

NCEPU_ZZE

已于 2022-10-05 19:37:14 修改

阅读量1.5k

点赞数 5

分类专栏：机器学习文章标签：人工智能机器学习深度学习

于 2022-10-03 15:19:20 首次发布

本文链接：https://blog.csdn.net/qq_42882457/article/details/127118540

版权

机器学习专栏收录该内容

39 篇文章 4 订阅

订阅专栏

SPTS: Single-Point Text Spotting

Abstract

几乎所有的场景文本定位（检测和识别）方法都依赖于昂贵的框注释（例如，文本行框、字级框和字符级框）。我们首次演示了训练场景文本定位模型可以通过每个实例的单点注释来实现。我们提出了一种端到端场景文本定位方法，它将场景文本定位作为一个序列预测任务来处理，如语言建模。给定一个图像作为输入，我们将期望的检测和识别结果表示为一个离散标记序列，并使用一个自回归transformer来预测序列。我们在几个水平的、多方向的、任意形状的场景文本基准测试上取得了很有希望的结果。最重要的是，我们展示了性能对点注释的位置不是非常敏感，这意味着它可以比需要精确位置的边界框更容易被注释和自动生成。我们相信，这样一个先驱性的尝试表明了一个重要的机会，场景文本定位应用比以前可能的规模。

1. 引言

在过去的几十年里，现代光学字符识别（OCR）算法能够从复杂场景的图片中读取文本内容，这是一个令人难以置信的发展，引起了学术界和工业界的巨大兴趣。现有方法的局限性，特别是它们在任意形状的场景文本上的性能较差，已经被反复识别。这可以从对曲线形状、不同字体、扭曲等情况的预测较差的趋势中看出。

OCR社区的研究焦点已经从水平和多方向文本[40,42]到近年来任意形状的文本，伴随着从水平矩形、四边形和多边形的注释格式。规则边界框容易涉及噪声的事实在以往的工作中得到了很好的研究（见图1），证明了字符级和多边形标注可以有效地提高模型性能。此外，人们已经努力开发更复杂的表示，以适应任意形状的文本实例（见图2）。例如，ABCNet 将多边形注释转换为Bezier曲线，以表示曲线的文本实例，而Text Dragon 利用字符级边界框生成中心线，以启用局部几何属性的预测。然而，这些新的表示主要是由专家基于先验知识精心设计的。

在这里插入图片描述

为了降低数据标记的成本，一些研究人员探索了以弱监督的方式使用粗注释来训练OCR模型。这些方法主要可以分为两类，即(1)引导标签到更细的粒度，(2)使用部分注释进行训练。前者通常从单词或行级注释中获得字符级标签；因此，模型可以在不引入开销成本的情况下享受字符级监督的良好优势。后者致力于以更少的训练样本来实现竞争激烈的表现。然而，这两种方法仍然依赖于昂贵的边界框注释。

阻止用更简单的注释格式替换单点边界框的潜在问题之一是，大多数文本监视器依赖于类似roi的采样策略来提取共享的主干特性。例如，掩码文本监控器需要在RoI中进行掩码预测；ABCNet提出了BezeirAlign，而TextDragon引入了RoISlide来统一检测和识别头部。在本文中，受最近基于序列的对象检测器Pix2Seq [4]的成功的启发，我们展示了文本监视器可以用一个单点进行训练，也被称为指示点（见图1e）。由于这种简洁的注释形式，标记时间可以显著节省，例如，与注释字符级边界框相比，标记图1中所示的样本图像所需不到五分之一的时间，这是非常曲折的，特别是对于小而模糊的文本实例。选择点注释的另一个激励因素是可以开发一个干净高效的OCR管道，丢弃复杂的后处理模块和采样策略，RoIs引入的模糊性（见图1中红色虚线区域）迄今可以得到缓解。据我们所知，这是第一次尝试在OCR社区中将边界框简化为单点监督信号。本工作的主要贡献总结如下：

第一次，我们证明了文本监视器可以通过一个简单而有效的单点表示来监督。这种简单的注释格式可以大大降低标签成本，使其在未来访问大规模的OCR数据成为可能。
我们提出了一种基于自回归transformer的场景文本检测器，它将文本定位作为一种语言建模任务。给定一个输入图像，我们的方法预测一个离散的标记序列，包括检测和识别结果。从这种简洁的管道中，基于先验知识设计的复杂的后处理和采样策略迄今为止可以被丢弃，显示出巨大的泛化能力潜力。
为了评估所提出的方法的有效性，在四个广泛使用的OCR数据集上进行了广泛的实验和消融，即ICDAR 2013，ICDAR 2015，toxt和SCUT-CTW1500，包括水平和任意形状的文本；以及对通用目标检测数据集Pascal VOC 的定性实验。结果表明，与现有的SPTS方法相比，所提出的SPTS可以达到具有竞争力的性能。

1.1.相关工作

在过去的几十年里，人们提出了各种使用不同注释风格的场景文本数据集，重点关注各种场景，包括用矩形描述的水平文本（图1a）、用四边形表示的多方向文本（图1b）和用多边形标记的任意形状的文本（图1d）。这些形式的注释促进了相应的OCR算法的开发。例如，早期的作品通常使通用的对象检测器适应场景文本定位，其中特征映射通过RoI模块在检测头和识别头之间共享。这些方法遵循为通用目标检测而设计的采样机制，并利用矩形来表达文本实例，从而在非水平目标上表现更差。后来，一些方法通过修改规则的区域提案网络（RPN）来生成四边形的边界框，从而为多面向文本具有更好的性能。最近，随着弯曲场景文本数据集[5,6,24]的呈现，OCR社区的研究兴趣已经转向了更具挑战性的任意形状的文本。一般来说，有两种被广泛采用的解决方案，任意形状的文本定位任务，即基于分割的和基于回归的方法。前者首先预测掩码来分割文本实例，然后对文本区域内的特征进行采样并分组，以便进一步识别。例如，[18]提出了一个分割建议网络（SPN），而不是常规的RPN来准确地解耦相邻的文本实例，从而显著提高了性能。此外，基于回归的方法通常将文本实例参数化为一个坐标序列，并随后学习预测它们。ABCNet 将多边形转换为Bezier曲线，显著提高了弯曲场景文本的性能。Wang等首先将文本实例的边界点进行定位，然后将薄板样条修正的特征输入识别分支，在任意形状的实例上显示出很好的精度。此外，邢等人，通过使用字符级注释来提高文本定位性能，其中可以同时预测字符边界框以及类型分割映射，从而实现令人印象深刻的性能。尽管上述方法采用了不同的表示方式来描述文本实例，但它们实际上都是来自于矩形、四边形或多边形边界框中的一个。这种注释必须由人类仔细标记，因此相当昂贵，限制了训练数据集的规模。

在本文中，我们提出了单点文本定位（SPTS），据我们所知，这是第一个完全不依赖于边界框注释的场景文本监视器。具体来说，每个文本实例都用一个单点（见图1e）表示，但成本很低。这一点不需要准确标记（例如在文本的中心）的事实进一步证明了以弱监督的方式学习的可能性，大大降低了标签成本。

2. 理论

大多数现有的文本定位算法将该问题视为两个子任务，即文本检测和识别，尽管整个网络可能是端到端优化的。需要定制的模块，如BezierAlign 、RoISlide 和 RoIMasking来连接检测和识别块，其中主干特征被裁剪并在检测和识别头之间共享。在这种设计类型下，识别和检测模块是高度耦合的。例如，在训练阶段，由于第一次迭代检测结果不够好，通常从 ground-truth边界框中裁剪特征；因此，在测试阶段，识别结果容易受到检测到的边界框的干扰。

最近，Pix2Seq 率先将通用的对象检测问题转换为一个语言建模任务，基于一个直观的假设，即如果一个深度模型知道目标是什么以及在哪里，就可以教它通过所需的序列来告诉结果。由于简洁的管道，具有不同属性的标签，如位置坐标和对象类别，可以集成到一个序列中，使端到端可训练的框架，没有任务特定模块（如区域提案网络和RoI池层），因此可以自然地适应文本定位任务。受此启发，我们提出了单点文本定位（SPTS）。SPTS将文本检测和识别作为一个序列预测任务来处理，可以通过一个更直接的管道来解决。现在，输入的图像被转换为一个包含位置和识别结果的序列，真正地同时实现了文本检测和识别任务。受此启发，我们提出了单点文本定位（SPTS）。SPTS将文本检测和识别作为一个序列预测任务来处理，可以通过一个更直接的管道来解决。现在，输入的图像被转换为一个包含位置和识别结果的序列，真正地同时实现了文本检测和识别任务。
在这里插入图片描述

具体来说，如图3所示，每个输入图像首先由CNN和transformer编码器进行编码，以提取视觉和上下文特征。然后，捕获的特征被transformer解码器解码，其中令牌以自回归的方式预测。与之前的算法不同，我们进一步将边界框简化为位于第一个字符左上角或文本实例中心的一个角点，如图7中的文本实例所示。得益于这种简单而有效的表示，可以避免基于先验知识精心设计的模块，如基于分割的方法中使用的分组策略和基于方框的文本跟踪器中配备的特征采样块。因此，识别精度不会受到检测结果差的限制，显著提高了模型的鲁棒性。

2.1.序列构造

一个序列可以携带具有多个属性的信息，这一事实自然使文本定位任务成为可能，其中文本实例同时被本地化和识别。要用序列表示目标文本实例，需要将连续描述（例如，边界框）转换为离散空间。为此，如图4所示，我们遵循Pix2Seq来构建目标序列。

我们的方法的不同之处在于，我们将边界框进一步简化为一个单点。具体来说，文本实例第一个字符的左上角的连续坐标（简称左上角点）均匀离散为 $1，n_{bins}]$ 之间的整数，其中 $n_{bins}$ 控制离散的程度。例如，一个长边为800像素的图像只需要 $n_{bins}$ = 800就可以实现零量化误差。到目前为止，一个文本实例可以由三个标记的序列表示，即 $[x ， y ， t]$ ，其中t是转录文本。值得注意的是，转录本质上是离散的，即每个字符代表一个类别，因此可以很容易地附加到序列中。然而，不同于一般的对象检测有一个相对固定的词汇（每个 $t$ 代表一个对象类别，如行人）， $t$ 可以任何任何长度的自然语言文本在我们的任务，导致可变长度的目标序列，这可能进一步导致错位问题，可以消耗更多的计算资源。

为了消除这些问题，我们将文本填充或截断到一个固定长度的 $l_{tr}$ ，其中 $< P A D >$ 令牌用于填补较短的文本实例的空缺。此外，与其他语言建模方法一样， $< SOS >$ 和 $< EOS >$ 标记分别插入到序列的头部和尾部，分别表示序列的开始和结束。因此，给定一个包含 $n_{ti}$ 文本实例的图像，构造的序列将包括 $2 + l_{lr}）×n_{ti}$ 离散标记，其中每个文本实例将是随机排序的，按照以前的工作。假设有 $n_{cls}$ 的字符类别（例如，97个英语字符和符号），用于标记序列的字典的词汇量大小可以计算为 $n_{bins} +n_{cls} + 3$ ，其中额外的三个类是为 $< P A D >$ 、 $< SOS >$ 和 $< EOS >$ 标记。根据经验，在我们的实验中，我们将 $l_{tr}$ 和 $n_{bins}$ 分别设置为25和1000。

2.2. 模型训练

序列增强 如图3所示，SPTS解码器以自回归的方式预测序列，其中使用 $< EOS >$ 标记来决定生成的终止。然而，在实践中， $< EOS >$ 标记容易导致序列预测任务提前终止，导致低召回率，这一事实已经在之前的工作中被发现。这个问题的原因可能是由于注释噪声和差异样本。因此，我们采用了序列增强策略来推迟 $< EOS >$ 令牌的出现。具体来说，如图5所示，将由随机生成的位置和转录组成的噪声实例插入到输入序列中。对于输出序列，每个噪声文本实例对应于几个“N/A”令牌、一个噪声令牌和一个 $< EOS >$ 令牌。在训练过程中，噪声标记将帮助模型区分噪声文本实例，从而延迟了 $< EOS >$ 的采样。值得注意的是，在优化中排除了“N/A”令牌的损失。

训练目标 由于SPTS被训练来预测令牌，所以它只需要在训练时最大化可能的可能性损失，这可以写成：
$maximize\sum_{i=1}^{L}w_ilogP(\tilde{s}_i|I,s_{1:i})$
其中 $I$ 为输入图像， $\tilde{s}$ 为目标序列， $s$ 为输入序列， $L$ 为序列的长度， $w_i$ 为第 $i$ 个标记的似然值的权重，根据经验设置为1。

2.3推理

在推理阶段，SPTS自动回归预测标记，直到序列标记 $< EOS >$ 出现结束。预测的序列随后将被划分为多个片段，每个片段包含 $2+𝑙_{𝑡𝑟}$ 个tokens。然后，tokens可以很容易地翻译成点坐标和转录，产生文本定位结果。此外，将相应段中所有tokens的可能性进行平均，并将其作为置信值来过滤原始输出，有效地消除了冗余和假阳性预测。

3 实验

我们报告了四个广泛使用的基准的实验结果，包括水平数据集ICDAR 2013，多面向数据集ICDAR 2015，以及任意形状的数据集total-text和SCUT-CTW1500 。

3.1 数据集

Curved Synthetic Dataset 150k. 通过对合成样本进行预训练，可以提高文本观测器的性能。在之前的工作之后，我们使用了由SynthText工具箱生成的150k个合成图像，它包含了大约三分之一的弯曲文本和三分之二的水平实例。
ICDAR 2013包含229个训练样本和233个测试样本，而图像主要是在一个受控的环境中捕获的，其中感兴趣的文本内容明确地集中在水平上。
ICDAR 2015包括1000张训练图像和500张偶然捕获的测试图像，包含在复杂背景中呈现的多方向文本实例，在模糊、扭曲等方面有很大的变化。
Total-Text包括1255张训练图像和300张测试图像，其中每个图像中至少有一个弯曲的样本，并在单词级用多边形边界框进行注释。
SCUT-CTW1500是另一个广泛使用的基准测试，设计用于发现任意形状的场景文本，分别涉及1000张和500张图像，用于训练和测试。文本实例在文本线级别上用多边形进行标记。

3.2评价方案

现有的文本定位任务的评估协议包括两个步骤。首先，计算地面真实值（GT）和检测到的盒子之间的联合（IoU）分数的交集；只有当IoU分数大于指定的阈值（通常设置为0.5）时，方框才会匹配。然后，将每个匹配边框内识别的内容与GT转录进行比较；只有预测文本与GT相同，才有助于端到端准确性。然而，在所提出的方法中，每个文本实例都用一个单点表示；因此，基于IoU的评价度量无法用来度量性能。同时，比较基于边界盒的方法与所提出的基于点的SPTS方法的定位性能可能是不公平的，例如，直接将边界盒内的点视为真阳性可能会高估检测性能。为此，我们提出了一种新的评估度量，以确保与现有方法相对公平，该方法主要考虑端到端精度，因为它反映了检测和识别性能（故障检测通常导致不正确的识别结果）。具体来说，如图6所示，我们修改了文本实例匹配规则代替单位距离度量，即预测点距离最近的中心点将被选择，和识别结果将测量相同的完全匹配规则用于现有的基准。只有一个具有最高置信度的预测点会与地面真相相匹配；其他的则被标记为假阳性。
在这里插入图片描述

探索是否提出的评估协议可以真正代表模型的准确性，表1比较的端到端识别精度ABCNetv1 和ABCNetv2 在Total-Text和SCUT-CTW1500 下两个指标，即常用的边界盒指标是基于IoU，提出了基于点的指标。结果表明，基于点的评估协议可以很好地反映性能，其中基于盒和基于点的指标评估的值之间的差异不超过0.5%。例如，ABCNetv1模型在这两个指标下，在SCUTCTW1500数据集上分别获得了53.5%和53.0%的分数。因此在接下来的实验中，我们使用基于点的度量来评估所提出的SPTS。
在这里插入图片描述

3.3 实施细节

模型首先预先训练的组合数据集，包括Curved Synthetic Dataset 150k，MLT-2017，ICDAR 2013，ICDAR 2015，Total-Text 150次迭代，优化的AdamW初始学习率 $5×10^{-4}$ ，而学习速率线性衰减到 $1×10^{-5}$ 。预训练后，对每个目标数据集的训练分割再进行200次迭代，固定学习率为 $1×10^{-5}$ 。整个模型在32个NVIDIA V100gpu上进行分布训练，批量大小为32。请注意，有效批处理大小为64，因为在一个小批处理中对每个图像执行了两个独立的增强。此外，我们利用ResNet-50作为骨干网络，而Transformer编码器和解码器都由6层和8个头组成。对于Transformer的体系结构，我们采用了Pre-LN Transformer。在训练过程中，输入图像的小尺寸被随机调整到640到896（间隔32），同时保持较长的边小于1600像素。数据扩充采用了随机裁剪和旋转的方法。在推理阶段，我们将短边的大小调整为1000，同时保持长边小于1824像素，遵循之前的工作。

3.4 消融实验

在这里插入图片描述

3.4.1 对指示点位置的消融研究

本文提出了将边界框简化为单点的问题。直观地说，被边界框所包围的区域中的所有点都应该能够表示目标文本实例。为了探索这些差异，我们进行了消融研究，使用三种不同的策略来获得指示点，如图7所示。通过平均上、下中点、左上角和方框内的随机点而得到的中心点。需要注意的是，我们在这里使用相应的ground-truth来计算距离矩阵来评估性能，即左上角的距离，中心的距离，随机到ground-truth多边形最近的距离。
结果如表2所示，其中中心数据集、左上角数据集和随机数据的结果在两个数据集上都是接近的。这表明，性能对点注释的位置不是很敏感。
在这里插入图片描述

3.4.2不同表示形式之间的比较

在序列构建过程中，通过将点坐标修改为边界框的位置，所提出的SPTS可以很容易地扩展到产生边界框。在这里，我们通过使用文本实例的不同表示来进行消融来探索其影响。具体来说，我们探索了三种变体，包括贝塞尔曲线边界框（SPTS-Bezier）、矩形边界框（SPTSRect）和指示点（SPTS-point）。既然我们只专注于这里的端到端性能，为了尽量减少检测结果的影响，每种方法使用相应的表示来匹配GT box在评估中。也就是说，单点模型(最初的SPTS)使用第3.2节介绍的评估指标，即点之间的距离;SPTS-Rect预测结果一致对多边形标注的限定矩形;的SPTS-Bezier采用与多边形盒匹配的原始度量。如表3所示，SPTS-point在Total-text和SCUT-CTW1500数据集上都取得了最好的性能，大大优于其他两种表示。这些实验结果表明，一个低成本的注释，即指示点，能够为文本定位任务提供监督。SPTS-Bezier和SPTS-Rect性能较低的原因可能是较长的序列(例如，SPTS-Bezier与𝑁𝑝= 16 vs。SPTS-Point与𝑁𝑝= 2)使它们难以收敛；因此，SPTS-Bezier和SPTS-Rect在相同的训练计划下无法达到相当的精度。

3.5与现有的场景文本基准测试方法的比较

3.5.1水平文本数据集

表4比较了在广泛使用的ICDAR 2013基准测试上提出的SPTS与现有方法。我们的方法取得了最先进的结果。应该注意的是，所提议的SPTS只使用了一个单点来进行训练，而其他方法则使用更昂贵的边界框进行了完全的训练。
在这里插入图片描述

3.5.2多方向数据集

ICDAR 2015数据集的定量结果见表5。在所提出的SPTS和最先进的方法之间仍然可以找到性能差距，这显示了我们的方法对于ICDAR 2015数据集中经常出现的小文本的一些局限性。由于序列是直接从整个图像的特征解码的，没有专门的RoI操作，所以我们的方法很难处理小文本。

3.5.3任意形状的数据集

我们进一步比较了我们的方法与包含任意形状文本的现有基准方法，包括Total-Text和SCUT-CTW1500。如表6所示，SPTS仅使用极低成本的点注释来实现最先进的性能。此外，表7显示，我们的方法在具有挑战性的SCUT-CTW1500数据集上大大优于最先进的方法，这进一步确定了我们的方法的潜力。
在这里插入图片描述

3.5.4总结

总之，与几个广泛使用的基准上的文本观察器相比，提议的SPTS可以达到最先进的性能。特别是在两个曲线数据集上，即Total-Text 和SCUT-CTW1500 上，所提出的SPTS大大优于一些最近提出的方法。我们的方法能够在任意形状的文本上获得更好的准确性的原因可能是： (1)提出的SPTS丢弃了基于先验知识设计的任务特定模块（如RoI模块）；因此，识别精度与检测结果解耦，即即使检测位置被移位，SPTS也能获得可接受的识别结果。然而，其他方法的识别头严重依赖于检测结果，这是其端到端精度较差的主要原因。一旦文本实例不能完全本地化，它们的识别头就无法工作。(2)虽然以前的模型是通过端到端的方式进行训练的，但它们的检测和识别分支之间的相互作用是有限的。具体来说，输入给识别模块的特征在训练时基于地面真实位置进行采样，但从推理阶段的检测结果进行采样，导致特征错位，这在弯曲文本实例中要严重得多。然而，通过以序列建模的方式处理定位任务，所提出的SPTS消除了这些问题，从而在任意形状的数据集上显示出更强的鲁棒性。SPTS在四个测试数据集上的可视化结果如图8所示。
在这里插入图片描述

3.6 SPTS扩展

3.6.1 无点文本定位

实验表明，检测和识别可能是解耦的。基于这些结果，我们进一步表明，即使没有单点注释的监督，SPTS也可以收敛。无点文本斑点法（NPTS）模型是通过从构造的序列中去除指定点的坐标来获得的。图9显示了NPTS的定性结果，这表明该模型可能仅仅基于转录就学会了隐式找出文本位置的能力。SPTS模型和NPTS模型的端到端识别结果的比较见表8在Sec中描述的评价指标。3.2节适用于NPTS，其中预测点和GT点之间的距离矩阵被替换为预测点和GT转录之间的编辑距离矩阵。尽管SPTS和NPTS之间存在明显的差距，但NPTS取得的初步结果仍然令人惊讶和非常令人鼓舞，值得进一步研究。
在这里插入图片描述

在这里插入图片描述

3.6.2单点对象检测

为了证明SPTS的通用性，我们在Pascal VOC [7]目标检测任务上进行了实验，其中模型用中心点和相应的类别进行训练。所有其他设置都与文本定位实验相同。在验证集上的一些初步的定性结果如图10所示。结果表明，单点可能可以为一般对象检测提供极低成本的注释。

4 限制

该框架的一个局限性是，训练过程需要大量的计算资源。例如，当模型使用32个NVIDIA V100 GPU卡进行分布训练时，160k场景文本预训练的150个小时和200个微调阶段大约需要63个小时。此外，由于自回归解码的方式，在使用一个NVIDIA V100 GPU的ICDAR 2013上的推理速度仅为1.0 fps。
SPTS的另一个限制是，它不能很好地处理非常微小的文本定位(如Sec所示。3.5.2)，因为SPTS的特征表示能力不能达到提取有效的小文本特征的高分辨率。这个问题值得今后进一步研究。

5 CONCLUSION

我们提出了SPTS，据我们所知，这是一种开创性的方法，它只使用极低成本的单点注释来处理场景文本定位。这一成功的尝试提供了一些全新的见解，挑战了该领域传统方框注释的必要性。SPTS是一个基于自回归变换的框架，它可以简单地将结果作为顺序标记生成，这可以避免复杂的后处理或排他采样阶段。基于这样一个简洁的框架，大量的实验证明了SPTS在各种数据集上的最先进的性能。我们进一步表明，我们的方法有潜力扩展到无点文本定位和通用的目标检测任务。