最新！CVPR 2021 OCR领域论文大盘点（22篇）

最新推荐文章于 2025-06-11 15:23:08 发布

转载最新推荐文章于 2025-06-11 15:23:08 发布 · 1w 阅读

文章标签：

#人工智能 #计算机视觉 #ocr #深度学习 #微软

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CSIG文档图像分析与识别专委会

前言

CVer 正在盘点CVPR 2021上各个方向的工作，目前热度最高的视觉Transformer盘点，之前已经po出，详见：最新！CVPR 2021 视觉Transformer论文大盘点（43篇）。本文将分享CVPR 2021上OCR相关的论文盘点工作（文末附PDF下载）。

关于更多CVPR 2021的论文和开源代码，可见下面链接：

https://github.com/amusi/CVPR2021-Papers-with-Code

正文

今年CVPR论文已经可以在官网全文浏览（网址：

https://openaccess.thecvf.com/CVPR2021?day=all），据初步统计，CVPR 2021共收录与OCR直接相关的论文约22篇，覆盖文档图像处理、场景文字检测、场景文字识别、手写文字分析与识别、端到端文字识别、文档图像预训练模型、TextVQA、文本图像检索、OCR应用等多个方向。具体情况如下：

文字图像处理（超分辨率增强、文字分割、文档版面分析）：3篇

Jingye Chen, Bin Li, Xiangyang Xue, Scene Text Telescope: Text-Focused Scene Image Super-Resolution, CVPR 2021
Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang, Humphrey Shi, Rethinking Text Segmentation: A Novel Dataset and a Text-Specific Refinement Approach, CVPR 2021
D. Arroyo, J Postels, F. Tombari, Variational Transformer Networks for Layout Generation, CVPR 2021

场景文字检测：5篇

Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu, Semantic-Aware Video Text Detection, CVPR 2021
Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang, Fourier Contour Embedding for Arbitrary-Shaped Text Detection, CVPR 2021
Qi Wan, Haoqin Ji, and Linlin Shen, Self-Attention Based Text Knowledge Mining for Text Detection, CVPR 2021
Pengwen Dai, Sanyi Zhang, Hua Zhang, Xiaochun Cao, Progressive Contour Regression for Arbitrary-Shape Scene Text Detection, CVPR 2021
Minghang He, Minghui Liao, Zhibo Yang, et al., MOST: A Multi-Oriented Scene Text Detector With Localization Refinement, CVPR 2021

场景文字识别：5篇

Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao, Primitive Representation Learning for Scene Text Recognition, CVPR 2021
Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang, Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition, CVPR 2021
Aberdam, R Litman, et al., Sequence-to-Sequence Contrastive Learning for Text Recognition, CVPR 2021
Nguyen Nguyen, Thu Nguyen, Vinh Tran, Minh-Triet Tran, et al., Dictionary-Guided Scene Text Recognition, CVPR 2021
Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa, What if We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels, CVPR 2021

端到端文字识别：2篇

Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, et al., Implicit Feature Alignment: Learn To Convert Text Recognizer to Text Spotter, CVPR 2021
Jing Huang, Guan Pang, Rama Kovvuri, et al., A Multiplexed Network for End-to-End, Multilingual OCR, CVPR 2021

手写文字分析与识别：2篇

Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, et al., MetaHTR- Towards Writer-Adaptive Handwritten Text Recognition, CVPR 2021
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Yongxin Yang, et al., Vectorization and Rasterization- Self-Supervised Learning for Sketch and Handwriting, CVPR 2021

其它（文档图像预训练模型，Text VQA、数据集，Retrieval , 应用）：5篇

Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, et al., SelfDoc: Self-Supervised Document Representation Learning, CVPR 2021
Amanpreet Singh, Guan Pang, Mandy Toh, et al., TextOCR: Towards Large-Scale End-to-End Reasoning for Arbitrary-Shaped Scene Text, CVPR 2021
Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu, Scene Text Retrieval via Joint Text Detection and Similarity Learning, CVPR 2021
Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, et al., TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption, CVPR 2021
Jing Wang, Jinhui Tang, Mingkun Yang, Xiang Baia , and Jiebo Luo, Improving OCR-Based Image Captioning by Incorporating Geometrical Relationship, CVPR 2021

上述22篇论文的摘要及其方法主要框图摘录如下：

文字图像处理（超分辨率增强、文字分割、文档版面分析）：3篇

场景文字检测：5篇

场景文字识别：5篇

端到端文字识别：2篇

手写文字分析与识别：2篇

其它（文档图像预训练模型，Text VQA、数据集，Retrieva，应用）：5篇

【温馨提示】关注本公众号，输入“CVPR OCR”可获取上述22篇论文的下载链接。

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

上述22篇OCR论文下载
后台回复：CVPR OCR，即可下载上述论文PDF
CVPR和Transformer资料下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集
后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF
CVer-OCR交流群成立
扫码添加CVer助手，可申请加入CVer-OCR 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如OCR+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号
整理不易，请给CVer点赞和在看