FREE: A Fast and Robust End-to-End Video Text Spotter论文翻译（部分）

最新推荐文章于 2024-07-22 12:50:02 发布

研究究

最新推荐文章于 2024-07-22 12:50:02 发布

阅读量263

点赞数

文章标签：神经网络深度学习

原文链接：https://sci-hub.se/10.1109/tip.2020.3038520

版权

https://sci-hub.se/10.1109/tip.2020.3038520

该篇文章发表于2021年TIP

摘要：

目前，视频文本识别任务通常分为四个阶段：检测单个图像中的文本区域，逐帧识别本地化文本区域，跟踪文本流和后处理以生成最终结果。但是，由于低质量文本和不可训练的管道策略的干扰，它们可能会遭受巨大的计算成本以及次优结果的困扰。在本文中，我们提出了一种名为 FREE 的快速且强大的端到端视频文本识别框架，它仅一次性识别本地化文本流，而不是逐帧识别。具体来说，FREE 首先采用了一个精心设计的时空检测器，它可以学习视频帧中的文本位置。然后开发了一种新颖的文本推荐器来从文本流中选择最高质量的文本进行识别。在这里，推荐器是通过将文本跟踪、质量评分和识别组装到一个可训练的模块中来实现的。它不仅避免了低质量文本的干扰，而且大大加快了视频文本的识别速度。 FREE 将检测器和推荐器整合为一个整体框架，有助于实现全局优化。此外，我们收集了一个用于推广视频文本识别社区的大规模视频文本数据集，其中包含来自 21 个现实生活场景的 100 个视频。在公共基准上进行的大量实验表明，我们的方法极大地加快了文本识别过程，并达到了显着的状态。

I. INTRODUCTION

视频文本定位由于其在工业监控中的港口集装箱号码识别、智能交通系统中的车牌识别、高级驾驶辅助系统中的路标识别等大量应用，仍然是一个重要的研究课题。

以前的方法 [1]-[3] 通常有四个方面：检测单个图像中的文本区域、逐个识别本地化文本区域、将文本区域跟踪为流以及应用后处理技术生成最终结果。然而，这些方法存在两个主要问题：1）由于一对一的文本识别策略导致大量计算开销，这可能是不切实际的，尤其是在监控摄像头甚至车载摄像头等前端设备上工作时。 2）由于大量低质量（例如模糊、透视失真、旋转和照明不佳等）文本和不可训练的管道策略导致的次优结果。在实际应用中，没有必要对文本流中的每个文本区域进行识别，这样会带来巨大的计算成本，也会带来各种低质量文本的干扰。从单个图像中的一些端到端文本定位方法 [4]-[7] 中学到，不可训练的管道策略也会降低视频文本定位性能。此外，一些运动干扰（例如物体/相机移动或晃动）会导致视频文本检测中的文本区域丢失，然后检测器将遭受低召回问题，如方法 [8]-[13] 所示。

为了规避上述问题，主要思想是从每个文本流中选择质量最高（例如清晰和水平）的文本区域，然后只需要识别选定的文本区域。因此，选择和识别策略比那些一对一的策略更有效。相应地，它需要我们设计一个鲁棒的质量评分器来为每个检测到的文本分配一个质量评分。为了进一步加快视频文本识别的过程，我们还尝试将文本跟踪、文本质量评分和识别简化并组装到一个统一的可训练模块中，称为文本推荐器（参见图 1 中的“文本推荐器”）。这样，文本推荐器将受益于跟踪、评分和识别之间的互补性。与逐一识别策略相比，它不仅大大减少了低质量文本的干扰，而且大大降低了计算成本。对于检测中的低召回问题，可以利用连续视频帧之间的时空信息（例如文本位置和上下文）来尽可能多地召回文本区域，这对于生成完整的文本流很重要。最后，我们可以将时空视频文本检测器和文本推荐器集成到一个框架中，并端到端训练该框架以进行全局优化。

在本文中，我们通过将精心设计的时空视频文本检测器和文本推荐器集成到端到端可训练框架中，提出了一种名为 FREE 的快速且稳健的端到端（Fast and Robust End-to-End）视频文本识别方法，如图所示在图1中。具体而言，时空视频文本检测器旨在通过参考连续视频帧之间的时间关系来召回更多文本。文本推荐器将文本跟踪、文本质量评分和文本识别组合成一个统一的可训练网络。在这里，跟踪模块负责生成文本流，质量评分模块用于评估每个文本区域的质量。然后检测器和文本推荐器组合成一个网络，可以端到端的方式进行训练（详见方法部分）。请注意，所提出的框架在理论上比现有的多阶段方法 [1]-[3]、[14] 快得多。这是因为 FREE 只需要识别跟踪文本流中质量得分最高的唯一一个文本区域，这与之前识别跟踪文本流中每个文本区域的方法不同。结果，它可以大大加快识别过程，逐步提高视频文本识别的效率。

最后但同样重要的是，我们还注意到现有视频文本基准的场景规模是有限的。例如，最大的视频场景文本数据集“Text in Videos”[15]只有来自 7 个不同场景的 49 个视频，这可能会限制对视频文本理解的研究。在本文中，我们收集了一个包含来自 21 个自然场景的 100 个视频的large-scale video text dataset（简称 LSVTD），希望对视频文本理解的研究有所帮助。

本文的贡献总结如下：（1）我们设计了一个新颖的文本推荐器，用于从文本流中选择最高质量的文本，然后只识别一次选定的文本区域。它显着加快了识别过程，还提高了视频文本识别性能。 (2) 我们将一个精心设计的时空文本检测器和一个文本推荐器集成到一个名为 FREE 的端到端可训练框架中，用于快速、稳健地发现视频文本。时空检测器可以帮助挖掘连续帧之间的更多文本区域。 (3) 为了促进视频文本识别的进步，我们收集并注释了一个更大规模的视频文本数据集，其中包含来自 21 个不同现实生活场景的 100 个视频。 (4) 大量实验表明，我们的方法快速且鲁棒，在视频场景文本识别中取得了令人印象深刻的性能。

与会议版本相比的主要扩展声明[8]：（1）我们以端到端可训练的方式实现视频文本定位，而不是会议版本中的两阶段形式。为了实现这一点，我们将 EAST [16] 替换为端到端可训练文本识别框架 Text Perceptron [17]（缩写 TP），其中 TP 中的原始识别模块被我们的文本推荐子模块替换。 (2) 我们通过以可学习的方式重新设计模板估计机制来进一步增强文本推荐模块，而不是通过 K-Means 粗略地合成模板。这是因为 K-Means 本质上对异常样本敏感，对复杂场景不鲁棒。 (3) 相应地，我们通过更广泛的实验评估来探索FREE的效果，这证明了扩展版本的优势。此外，我们通过删除一些连续的背景帧来改进 LSVTD，并提供更详细的特征。

II. RELATED WORK

略。。。

III. METHODOLOGY

研究究

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
FREE: A Fast and Robust End-to-End Video Text Spotter论文翻译（部分）

FREE: A Fast and Robust End-to-End Video Text Spotter
复制链接

扫一扫