基于中文预训练模型和FasterTransformer的光学字符识别: Faster TrOCR

本文介绍了基于预训练模型TrOCR的光学字符识别(OCR)技术,该模型使用Transformer结构,能以端到端方式在大规模合成数据上预训练并人工标注数据上微调。通过采用Swin Transformer、ERNIE3.0等改进,适用于中文OCR识别,同时整合NVIDIA FasterTransformer以提升预测速度。在训练中应用CTCLoss,推断时采用CTC BeamSearch与Attention Rescoring策略。
摘要由CSDN通过智能技术生成

    不久前,微软亚洲研究院的研究员们提出了首个利用预训练模型的端到端基于 Transformer 的文本识别 OCR 模型:TrOCR。该模型简单有效,可以使用大规模合成数据进行预训练,并且能够在人工标注的数据上进行微调。实验证明,TrOCR在打印数据和手写数据上均超过了当前最先进的模型。如图1。

图1 TrOCR 模型结构示意图

    我认为这种不以RNN参与图像特征提取的模型结构会有广泛的场景应用潜力,并用paddle对其做了实现。此外,与原方法主要有四点不同:

  1. 使用了Swin Transformer及其变体等作为图像部分的编码器;
  2. 使用ERNIE3.0、GPT等基于TansformerEncoder/Decoder的中文预训练模型作为TrOCR文本部分的解码器以适用于中文OCR识别任务;
  3. 集成了 NVIDIA 
  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值