「R Talk 」是一个深度学习专栏,将通过不定期的推送展示旷视的学术分享及阶段性技术成果。「R」是 Research 的缩写,也是旷视研究院的内部代号;而所有的「Talk」都是来自旷视的 Researcher。「R Talk 」旨在通过一场场精彩纷呈的深度学习演讲,抛砖引玉,推陈出新,推动中国乃至全球领域深度学习技术的大发展。
本文是旷视云服务事业部(CSG)算法负责人姚聪博士应邀在雷锋网 AI 研习社做的一次主题为自然场景文字检测与识别的线上报告:《Scene Text Detection and Recognition: The Deep Learning Era》,其内容共分为 5个部分:
Background and Overview
Recent Advances and Representative Algorithms
Future Trends and Potential Directions
Typical Applications
Conclusion
第 1 部分给出了文字检测与识别的定义,为什么在视觉识别中如此重要,以及当下深度学习时代语境中,面临的 3 个显性挑战;第 2 部分把当下的文字检测与识别技术归纳为 5 个类别,并分别给出了代表性成果与算法实例,反映出该领域的最新进展;第 3 部分通过分析文字检测与识别技术发展趋势及潜在方向提出了 4 个未来机遇(挑战);第 4 部分举出了一些典型的行业落地应用;第 5 部分则做了最后总结。
以下是主要内容(文末附有视频)。
Background and Overview
视觉识别中,文字为什么如此重要?有两个原因,分别是作为载体的文字和作为线索的文字。
文字作为载体
首先,文字并非自然产生,而是人类的创造物,天生包含着丰富而准确的高层语义信息,传达人类的思想和情感,这是一般的图像或者视频信息很难直接描述的,但是文字可以做到。比如《史记》,通过它可以了解两千年前的某个历史事件相关的人物、时间和地点。
文字作为线索
其次,文字是视觉识别的重要线索。如上所示,这是一张街景图像,有建筑物,有植物;如果进一步提问,图像拍摄地点是哪儿,光靠以上信息无从得知,而移除中间的灰色掩膜,会发现这是“中关村广场购物中心”。借助文字信息可以精确获知图像的拍摄地点。由此可知,文字与其他视觉线索(边缘、颜色、纹理等)有着非常强的互补作用,通过文字检测和识别,可以获得更丰富、准确的信息。
定义
那么,从研究角度讲,如何界定文字检测与识别问题呢?
简单来讲,文字检测是指通过算法计算判断自然场景中在单词或者文字行层面是否含有文字实例(如果有,则标出位置)的过程。
文字识别则更进一步,它在文字检测基础之上把文字区域转化为计算机可读取和编辑的符号的过程。
挑战
目前,文字检测与识别面临诸多挑战。首先,它与传统 OCR(光学字符识别)有所区别,因自然场景之中文字变化非常之多,如下所示,左边是一张典型的扫描文档图像,右边则是自然场景中采集的多张图像。
通过对比可以发现,左图的背景非常干净,右图的背景非常杂乱;左边字体非常规整,右边则千变万化;左边布局较为平整统一 ,右边则多元复杂,缺乏规范;左边颜色单调,右边颜色种类繁多。
总体而言,文字检测与识别存在三个方面的重大挑战:
1)场景文字的多样性。如文字的颜色、大小、方向、语言、字体等。