飞桨博士会第四期回顾，场景文字识别的算法创新与应用

飞桨PaddlePaddle

于 2019-10-09 18:56:26 发布

阅读量426

点赞数

文章标签：百度算法大数据机器学习人工智能

原文链接：https://mp.weixin.qq.com/s/BKG4VTeAite_1ZLmPZ4ggA#rd

版权

飞桨博士会第四期聚焦场景文字识别，百度资深工程师孙逸鹏分享了百度在该领域的最新研究成果，包括文字检测、端到端识别、大规模数据集构建与竞赛组织，展示了OCR技术在搜索、视频、金融等业务的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

飞桨博士会第四期沙龙于9月28日在百度大厦举办，来自计算机视觉研究方向的博士齐聚西二旗进行交流。

本期技术沙龙的主讲嘉宾为百度视觉技术部资深研发工程师孙逸鹏博士，分享主题为《看图识字：场景文字识别技术与应用》，围绕百度场景文字识别基础技术近一年的最新研究工作展开分享，如下为孙博士分享内容概要。

计算机视觉是模拟人眼视觉感知能力的人工智能技术，主要领域涉及人脸、文字、人体、视频等重要场景与应用方向。计算机视觉在搜索、电商、无人驾驶场景有广泛应用，如利用图像搜索识别商品、利用三维视觉帮助车载感应器感知世界。

文字是人类传递信息的重要载体。在计算机视觉领域，文字识别是最重要的传统AI技术之一，打通了图像和文本的信息鸿沟，拥有广泛的应用场景和使用价值。例如随拍文档、街景、商品、证照、票据等场景文字识别。近些年来，基于深度学习算法的文字识别技术不断演进，从多模型、多步骤的检测识别方法，逐步发展为单模型的端到端识别方法，系统更加数据驱动、步骤更简化、识别扩展能力更强。

下面对百度于2019年度公开发表的几个文字识别领域创新技术算法，进行简单介绍：

文字检测：

基于主干、候选回归、候选区域及精细化二次回归，文字检测算法可对任意文字形状进行精确表示，解决任意形状长行文字检测问题，在公开数据集合达到SOTA检测定位效果。

详情请参见文章：C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

借鉴目标检测中的经验，为提升检测速度，研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达，多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果，并提升速度。

详情请参见文章：P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498

端到端识别：

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主，非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题，我们提出端到端OCR识别TextNet算法，通过共享主干、透视RoI变换实现文字检测、空间注意力机制序列识别耦合设计，同时提升非规则行的文字识别效果。

详情请参见文章：Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景，我们引入弱标注数据的概念，针对街景场景只标注关键词信息，忽略非重要信息，无需精确位置标注，避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法，弱标注成本是精标注的1/90，弱标识数据量从2万扩增到40万，单模型平均编辑距离AED错误率相对降低20%。取公开英文数据集，端到端部分监督学习在ICDAR 15端到端评测达到单模型尺度SOTA效果。

详情请参见文章：Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

大规模公开数据集：

为进一步推动中文场景文字识别领域发展，通过构建新的ICDAR 2019-LSVT大规模街景文字、ICDAR 2019-ArT任意形状文字集合，百度携学术界举办两项ICDAR 2019场景文字识别的国际赛事，提供源于百度真实场景图像数据45万，奖金17,800美金，吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个，各大主流媒体报道20余次。百度团队在ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖，展现近年来OCR识别技术的快速发展与应用新高度。

详情请参见文章：C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT，in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al，ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT，in Proc. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07145

当前百度已将场景文字识别技术用于搜索、视频、金融、翻译、地图、百度云等业务，并将场景文字识别能力开源。

百度大脑提供场景文字识别的云端API供开发者们使用，同时证照识别SDK可用于端部署。

百度AI开放平台-卡证文字识别 https://ai.baidu.com/tech/ocr_cards

百度AI开放平台-票据文字识别 https://ai.baidu.com/tech/ocr_receipts

百度AI开放平台-汽车场景文字识别 https://ai.baidu.com/tech/ocr_cars

百度AI开放平台-其他文字识别 https://ai.baidu.com/tech/ocr_others

同时，常用OCR识别模型也已在PaddlePaddle上开源，了解详细介绍可至

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition