飞桨博士会第四期回顾,场景文字识别的算法创新与应用

飞桨博士会第四期沙龙于9月28日在百度大厦举办,来自计算机视觉研究方向的博士齐聚西二旗进行交流。

 

本期技术沙龙的主讲嘉宾为百度视觉技术部资深研发工程师孙逸鹏博士,分享主题为《看图识字:场景文字识别技术与应用》,围绕百度场景文字识别基础技术近一年的最新研究工作展开分享,如下为孙博士分享内容概要。

 

计算机视觉是模拟人眼视觉感知能力的人工智能技术,主要领域涉及人脸、文字、人体、视频等重要场景与应用方向。计算机视觉在搜索、电商、无人驾驶场景有广泛应用,如利用图像搜索识别商品、利用三维视觉帮助车载感应器感知世界。

 

文字是人类传递信息的重要载体。在计算机视觉领域,文字识别是最重要的传统AI技术之一,打通了图像和文本的信息鸿沟,拥有广泛的应用场景和使用价值。例如随拍文档、街景、商品、证照、票据等场景文字识别。近些年来,基于深度学习算法的文字识别技术不断演进,从多模型、多步骤的检测识别方法,逐步发展为单模型的端到端识别方法,系统更加数据驱动、步骤更简化、识别扩展能力更强。

 

下面对百度于2019年度公开发表的几个文字识别领域创新技术算法,进行简单介绍:

 

文字检测

基于主干、候选回归、候选区域及精细化二次回归,文字检测算法可对任意文字形状进行精确表示,解决任意形状长行文字检测问题,在公开数据集合达到SOTA检测定位效果。

详情请参见文章:C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

 

借鉴目标检测中的经验,为提升检测速度,研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达,多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果,并提升速度。

详情请参见文章:P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498 

端到端识别

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主,非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题,我们提出端到端OCR识别TextNet算法,通过共享主干、透视RoI变换实现文字检测、空间注意力机制序列识别耦合设计,同时提升非规则行的文字识别效果。

详情请参见文章:Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景,我们引入弱标注数据的概念,针对街景场景只标注关键词信息,忽略非重要信息,无需精确位置标注,避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法,弱标注成本是精标注的1/90,弱标识数据量从2万扩增到40万,单模型平均编辑距离AED错误率相对降低20%。取公开英文数据集,端到端部分监督学习在ICDAR 15端到端评测达到单模型尺度SOTA效果。

详情请参见文章:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

 

大规模公开数据集:

为进一步推动中文场景文字识别领域发展,通过构建新的ICDAR 2019-LSVT大规模街景文字、ICDAR 2019-ArT任意形状文字集合,百度携学术界举办两项ICDAR 2019场景文字识别的国际赛事,提供源于百度真实场景图像数据45万,奖金17,800美金,吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个,各大主流媒体报道20余次。百度团队在ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖,展现近年来OCR识别技术的快速发展与应用新高度。

 

详情请参见文章:C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral, 

https://arxiv.org/abs/1909.07145

  

当前百度已将场景文字识别技术用于搜索、视频、金融、翻译、地图、百度云等业务,并将场景文字识别能力开源。

百度大脑提供场景文字识别的云端API供开发者们使用,同时证照识别SDK可用于端部署。

百度AI开放平台-卡证文字识别 https://ai.baidu.com/tech/ocr_cards

百度AI开放平台-票据文字识别 https://ai.baidu.com/tech/ocr_receipts

百度AI开放平台-汽车场景文字识别 https://ai.baidu.com/tech/ocr_cars

百度AI开放平台-其他文字识别 https://ai.baidu.com/tech/ocr_others

同时,常用OCR识别模型也已在PaddlePaddle上开源,了解详细介绍可至

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition

 

进入提问环节,现场博士们踊跃提问,交流氛围热烈。随后,每位博士同步进行自我介绍,并就场景文字识别的算法优化进行讨论。

本期活动中,每位参会者都收到主办方赠送的Tesla V100 GPU算力卡,现场运营同学也向各位演示激活算力卡的操作,详情可参见:

https://mp.weixin.qq.com/s/BKG4VTeAite_1ZLmPZ4ggA

至此,本期飞桨博士会线下活动圆满落幕,欢迎更多博士加入飞桨博士会。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值