标题：从数据视角重塑场景文本识别：Revisiting Scene Text Recognition

最新推荐文章于 2024-07-01 00:41:33 发布

宋溪普Gale

最新推荐文章于 2024-07-01 00:41:33 发布

阅读量349

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00088/article/details/139672626

版权

标题：从数据视角重塑场景文本识别：Revisiting Scene Text Recognition

Union14M[ICCV 2023] Code base for Revisiting Scene Text Recognition: A Data Perspective项目地址:https://gitcode.com/gh_mirrors/un/Union14M

在计算机视觉领域，场景文本识别（Scene Text Recognition, STR）是一个基础但至关重要的任务，其目标是识别自然图像中的文字信息。近年来，STR技术取得了显著进步，但在六个常用基准测试集上的准确度似乎已接近饱和，这一成就引发了一个问题——我们对STR的研究是否已经结束？还是现有的基准挑战性不足，无法揭示真实世界环境下的方法局限？

一项名为“Revisiting Scene Text Recognition: A Data Perspective”的新研究，旨在通过整合大量数据，深入探讨STR面临的挑战并提供新的解决方案。这项研究不仅汇编了一个前所未有的大规模STR数据集，还提出了一个挑战驱动的基准，以推动STR领域的进一步发展。

一、项目简介

这个项目的核心是Union14M，它是一个由17个公共数据集合并而成的大规模STR数据集，包含了400万个标注样本（Union14M-L）和1000万个未标注样本（Union14M-U）。通过对这些数据的详尽分析，研究人员识别出了七个现实世界的STR难题，并展示了自监督预训练如何利用海量未标注数据提升模型性能，为解决STR的实际问题提供了一条新路径。