转载于:AI科技评论(aitechtalk)
作者:旷视科技
AI 科技评论按:随着深度学习的兴起和发展,计算机视觉领域发生了极大的变化。作为计算机视觉中一个重要的研究课题,场景文字检测和识别也无法避免地被这股浪潮席卷,一起进入了深度学习的时代。近年来,这个问题的研究者们都共同见证了思维、方法和性能方面的巨大变化,本次公开课的嘉宾将与大家分享相关内容。
分享嘉宾:
姚聪,于华中科技大学电信学院获得学士和博士学位,其主要研究方向为自然场景文字检测和识别。在国际重要期刊IEEE TPAMI, IEEE TIP以及顶级会议CVPR、ICCV和ECCV等上发表论文十余篇。目前在旷视科技(Face++)担任云服务业务算法负责人,主持自然场景OCR、人脸活体检测等技术的研发工作,为FaceID互联网身份验证服务、Face++开放平台等提供算法支持。
公开课回放地址:
http://www.mooc.ai/open/course/605
分享主题:深度学习时代的文字检测与识别技术
分享提纲:
- 背景与概述
- 场景文字检测与识别的近期进展
- 未来趋势与潜在方向
- 典型应用
雷锋网 AI 研习社将其分享内容整理如下:
背景与概述
视觉识别中,文字为什么如此重要?有两个原因,分别是作为载体的文字和作为线索的文字。
- 文字作为载体
![3f048641ca51be5aba3c599012a89396.png](https://i-blog.csdnimg.cn/blog_migrate/f1e4dec05749fd559764d45ceb1736a1.jpeg)
首先,文字并非自然产生,而是人类的创造物,天生包含着丰富而准确的高层语义信息,传达人类的思想和情感,这是一般的图像或者视频信息很难直接描述的,但是文字可以做到。比如《史记》,通过它可以了解两千年前的某个历史事件相关的人物、时间和地点。
- 文字作为线索
![330e9f3eda35901bb1f53f421250019d.png](https://i-blog.csdnimg.cn/blog_migrate/8efa5dd0091fcf4198ae53b128be729d.jpeg)
其次,文字是视觉识别的重要线索。如上所示,这是一张街景图像,有建筑物,有植物;如果进一步提问,图像拍摄地点是哪儿,光靠以上信息无从得知,而移除中间的灰色掩膜,会发现这是「中关村广场购物中心」。借助文字信息可以精确获知图像的拍摄地点。由此可知,文字与其他视觉线索(边缘、颜色、纹理等)有着非常强的互补作用,通过文字检测和识别,可以获得更丰富、准确的信息。
- 定义
那么,从研究角度讲,如何界定文字检测与识别问题呢?
![8c2cac742debe644e218dc33e0b4ef58.png](https://i-blog.csdnimg.cn/blog_migrate/d89a48789dc34955f4bee7745e5d540e.jpeg)
简单来讲,文字检测是指通过算法计算判断自然场景中在单词或者文字行层面是否含有文字实例(如果有,则标出位置)的过程。
![d5edf7e742325f8d778309370fc42167.png](https://i-blog.csdnimg.cn/blog_migrate/241d2b74c6ce26ca262d847cd75142be.jpeg)
文字识别则更进一步,它在文字检测基础之上把文字区域转化为计算机可读取和编辑的符号的过程。
- 挑战
目前,文字检测与识别面临诸多挑战。首先,它与传统 OCR(光学字符识别)有所区别,因自然场景之中文字变化非常之多,如下所示,左边是一张典型的扫描文档图像,右边则是自然场景中采集的多张图像。
![8e93ec0c9b0fd63f4efe5c77fbff2509.png](https://i-blog.csdnimg.cn/blog_migrate/9e845d0d97cabf9548b78a8f70860327.jpeg)
通过对比可以发现,左图的背景非常干净,右图的背景非常杂乱;左边字体非常规整,右边则千变万化 ;左边布局较为平整统一,右边则多元复杂,缺乏规范;左边颜色单调,右边颜色种类繁多。
总体而言,文字检测与识别存在三个方面的重大挑战:
1)场景文字的多样性。如文字的颜色、大小、方向、语言、字体等。
![d8ec9d532c32514a0cc42faf8231125b.png](https://i-blog.csdnimg.cn/blog_migrate/2a9362697009a6b4dce502b89a2a4e2e.jpeg)
2)图像背景的干扰。日常生活中随处可见的信号灯、指示标、栅栏、屋顶、窗户、砖块、花草等局部来看和文字有一定相似性,这为文字检测与识别过程带来很大干扰。