自监督论文阅读笔记Reading and Writing: Discriminative and Generative Modelingfor Self-Supervised Text Recogn

最新推荐文章于 2024-08-27 22:37:29 发布

YoooooL_

最新推荐文章于 2024-08-27 22:37:29 发布

阅读量1k

点赞数 3

分类专栏：论文阅读笔记文章标签：计算机视觉 python 人工智能

本文链接：https://blog.csdn.net/YoooooL_/article/details/126023751

版权

本文提出了一种名为DiG的自监督方法，结合对比学习和掩码图像建模，用于文本识别。通过模仿人类阅读和写作学习过程，模型在不规则场景文本识别数据集上提高了10.2%-20.2%的性能，且在11个基准上平均超过SOTA方法5.3%。此外，预训练模型在文本分割和超分辨率等任务中也表现出色。

摘要由CSDN通过智能技术生成

现有的文本识别方法通常需要大规模的训练数据。由于缺乏带注释的真实图像，它们中的大多数依赖于合成训练数据。然而，合成数据和真实数据之间存在领域差距，这限制了文本识别模型的性能。最近的自监督文本识别方法试图通过引入对比学习来利用未标记的真实图像，对比学习主要学习文本图像的辨别。受人类通过阅读和写作学习识别文本的观察的启发，本文建议，通过在本文的自监督方法中 集成对比学习和掩码图像建模 来学习辨别和生成。

采用 对比学习分支 来学习文本图像的判别，模仿人类的阅读行为。同时，首先将 掩码图像建模 用于文本识别，以学习文本图像的上下文生成，这类似于书写行为。

实验结果表明，本文的方法在不规则场景文本识别数据集上优于以前的自监督文本识别方法 10.2%-20.2%。此外，本文提出的文本识别器在 11 个基准上平均超过了以前最先进的文本识别方法 5.3%，具有相似的模型大小。还证明了本文的预训练模型可以很容易地应用于其他与文本相关的任务，并具有明显的性能提升。

从图像中读取文本 [23, 30] 是一个连接视觉和语言的长期且有价值的话题，主要包括文本检测 [31, 32] 和文本识别 [44, 45]。由于大多数现有的文本识别方法都需要大量数据，而带注释的真实图像价格昂贵，因此它们通常依赖于大规模的合成训练数据。然而，合成数据和真实数据之间的领域差距限制了文本识别模型的性能。因此，探索未标记的真实图像的使用是有意义的，这可以进一步激发文本识别模型的潜力。

采用自监督学习进行文本识别以充分利用真实图像 是很自然的。以前的工作试图通过引入对比学习来利用未标记的真实图像。SeqCLR [1] 提出了一种用于文本识别的序列到序列对比学习框架。 PerSec [34] 介绍了一种用于文本识别的分层对比学习方法。它们都是基于对比学习，主要侧重于学习文本图像的辨别，如图1a所示。

本文观察到 人类通过阅读和写作来学习识别文本图像。

阅读是指从不同的外观或不同的角度观察文本，这有助于我们学习辨别力。
写作是一种更深入地识别文本图像的生成方式。

阅读和写作的结合有助于人类更好地识别文本。受这一观察的启发，本文提出了一种用于文本识别的判别式和生成式自监督方法（DiG）。

如图 1b 所示，本文提出的 DiG 将对比学习和掩码图像建模集成到一个统一的模型中，以充分享受判别模型和生成

最低0.47元/天解锁文章

YoooooL_

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
自监督论文阅读笔记Reading and Writing: Discriminative and Generative Modelingfor Self-Supervised Text Recogn

由于大多数现有的文本识别方法都需要大量数据，而带注释的真实图像价格昂贵，因此它们通常依赖于大规模的合成训练数据。然而，合成数据和真实数据之间的领域差距限制了文本识别模型的性能。此外，本文提出的文本识别器在11个基准上平均超过了以前最先进的文本识别方法5.3%，具有相似的模型大小。现有的文本识别方法通常需要大规模的训练数据。，这限制了文本识别模型的性能。的观察的启发，本文建议，通过在本文的自监督方法中。是有意义的，这可以进一步激发文本识别模型的潜力。用于文本识别，以学习文本图像的。...
复制链接

扫一扫