不久前,微软亚洲研究院的研究员们提出了首个利用预训练模型的端到端基于 Transformer 的文本识别 OCR 模型:TrOCR。该模型简单有效,可以使用大规模合成数据进行预训练,并且能够在人工标注的数据上进行微调。实验证明,TrOCR在打印数据和手写数据上均超过了当前最先进的模型。如图1。
图1 TrOCR 模型结构示意图
我认为这种不以RNN参与图像特征提取的模型结构会有广泛的场景应用潜力,并用paddle对其做了实现。此外,与原方法主要有四点不同:
- 使用了Swin Transformer及其变体等作为图像部分的编码器;
- 使用ERNIE3.0、GPT等基于TansformerEncoder/Decoder的中文预训练模型作为TrOCR文本部分的解码器以适用于中文OCR识别任务;
- 集成了 NVIDIA