自监督论文阅读笔记Reading and Writing: Discriminative and Generative Modelingfor Self-Supervised Text Recogn

本文提出了一种名为DiG的自监督方法,结合对比学习和掩码图像建模,用于文本识别。通过模仿人类阅读和写作学习过程,模型在不规则场景文本识别数据集上提高了10.2%-20.2%的性能,且在11个基准上平均超过SOTA方法5.3%。此外,预训练模型在文本分割和超分辨率等任务中也表现出色。
摘要由CSDN通过智能技术生成

        现有的文本识别方法通常需要大规模的训练数据。由于缺乏带注释的真实图像,它们中的大多数依赖于合成训练数据。然而,合成数据和真实数据之间存在领域差距,这限制了文本识别模型的性能。最近的自监督文本识别方法 试图通过 引入对比学习 来利用未标记的真实图像,对比学习主要学习文本图像的辨别。受人类 通过阅读和写作 学习识别文本的观察的启发,本文建议,通过在本文的自监督方法中 集成 对比学习 和 掩码图像建模 来学习辨别和生成。

        采用 对比学习分支 来学习文本图像的判别模仿人类的阅读行为。同时,首先将 掩码图像建模 用于文本识别,以学习文本图像的上下文生成,这类似于书写行为

        实验结果表明,本文的方法在不规则场景文本识别数据集上优于以前的自监督文本识别方法 10.2%-20.2%。此外,本文提出的文本识别器在 11 个基准上平均超过了以前最先进的文本识别方法 5.3%,具有相似的模型大小。还证明了本文的预训练模型可以很容易地应用于其他与文本相关的任务,并具有明显的性能提升。


        从图像中读取文本 [23, 30] 是一个连接视觉和语言的长期且有价值的话题,主要包括文本检测 [31, 32] 和文本识别 [44, 45]。由于大多数现有的文本识别方法都需要大量数据,而带注释的真实图像价格昂贵,因此它们通常依赖于大规模的合成训练数据。然而,合成数据和真实数据之间的领域差距限制了文本识别模型的性能。因此,探索未标记的真实图像的使用是有意义的,这可以进一步激发文本识别模型的潜力。

        采用自监督学习 进行文本识别 以充分利用真实图像 是很自然的。以前的工作试图 通过 引入对比学习 来利用未标记的真实图像。SeqCLR [1] 提出了一种用于文本识别的 序列到序列 对比学习框架。 PerSec [34] 介绍了一种用于文本识别的 分层对比学习方法。它们都是基于对比学习,主要侧重于学习文本图像的辨别,如图1a所示。

        本文观察到 人类通过阅读和写作来学习识别文本图像

  • 阅读 是指 从不同的外观或不同的角度观察文本,这有助于我们学习辨别力
  • 写作是一种更深入地识别文本图像的生成方式

        阅读和写作的结合有助于人类更好地识别文本。受这一观察的启发,本文提出了一种用于文本识别的判别式和生成式自监督方法(DiG)

        如图 1b 所示,本文提出的 DiG 将对比学习和掩码图像建模集成到一个统一的模型中,以充分享受判别模型和生成

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值