ACM MM 2022 Oral | DIG: 自监督文字识别的新框架,刷新11个公开场景文字数据集的识别性能,平均提升5%...

华科大与华为云联合提出的DiG模型,结合对比学习与掩码图像建模,提升自监督文字识别效果,平均提升11个公开数据集识别性能5.3%,并适用于文本分割和超分辨率等下游任务。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文介绍了一种由华科与华为联合提出的全新自监督文字识别框架 DiG。该模型统一了对比式与生成式自监督方法,并在下游的文字识别任务中,刷新了11个公开场景文字数据集的识别性能,平均提升5%。论文『Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition』, 由华科大&华为云联合提出一种融合生成式与对比式的自监督文字识别方法。

详细信息如下:

605cb1421d95734508b8cec82135e93a.png

  • 作者:杨明锟,廖明辉,卢普,王晶,朱声高,罗华霖,田奇,白翔

  • 单位:华中科技大学、华为云 

  • 论文链接:https://arxiv.org/abs/2207.00193

      01      

前言

现有的文本识别方法通常需要大规模的训练数据。由于缺乏带标注的真实文本图像,这些方法大都采用计算机合成的图像进行训练。但是,合成数据和真实数据之间存在较大的领域差距,这限制了文本识别模型在真实应用场景中的性能。

近年来,有研究人员通过基于对比学习的自监督学习来利用无标注的真实文本图像。受到人类识别文本的过程是同时通过“读”和“写”的启发,本文提出将对比学习和掩码式图像建模融合到一个自监督框架,以同时学习图像的区分性特征和上下文信息。

具体来说,对比学习分支用于学习文本图像的区分性特征,模仿人类的阅读行为。而掩码式图像建模首次被用于文字识别,用于学习文本图像的上下文生成,模仿人类的写作行为。


实验结果表明,本文的方法优于之前的自监督文本识别方法。并且相对于最先进的文本识别方法,本文的方法在11个数据集上得到了整体5.3%的性能提升。本文也验证了预训练得到的模型可以直接被应用到文本相关的其他下游任务,比如文本分割和超分辨率等等,并且得到明显的性能增益。

1.1 主要动机

本文观察到人类通过“读”和“写”来学习认识文本图像。“读”是指通过区分不同文字或者不同视角的外观来学习其区分性区域。“写”是指基于部分文字块,能够联想出整个文字。“读”和“写”的结合,才能帮助人类更好地学会认识文字。基于这种观察,本文提出将类比

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值