中国人工智能学会通讯——文字识别技术现状、挑战及机遇

image

今天非常高兴在这里作一个文字识别的技术现状、目前存在的问题及挑战、学术研究和商业应用机遇,以及未来技术发展趋势的报告。

image

首先简要谈一下人工智能。去年3月份,美国纽约时报采访了硅谷一些IT的大神们,请他们谈一下未来IT领域当中什么方向是潜在的爆发点,当时很多专家都不约而同谈到一个观点,就是人工智能很可能是未来IT领域的大事件。其实不仅仅是在工业界,在计算机学术界乃至整个科学界,人工智能过去几年都是非常热门的研究话题,举例来说,在过去两年,与深度学习和机器学习相关的文章已经有5次上了Nature或Science的封面文章。难怪科普期刊Scientific American去年撰文说,人工智能的春天来到了。在国内,我们发现人工智能的春天似乎也正在悄悄来临,从中国工程院、科技部以及政府,都在积极推动人工智能学术研究及其在产业中的应用发展。

image

视觉感知是人工智能当中特别重要的问题之一,为什么这么说?我们人类对世界的感知大约80%是通过眼睛获取的。计算机视觉使得人工智能看懂世界,典型的技术包括图像识别、人脸识别、视频监控等,这里还想强调一点,文字识别也是非常重要的计算机视觉技术。因为文字是我们感知这个世界最重要的手段,无论是从小学习知识到长大进行交流,衣食住行都离不开文字。在生活当中,文字也无处不在,离开了文字有时候我们很难理解整个社会和世界。文字的重要性还表现在很多方面,它是人类文明的标志,是信息交流的途径,学习知识的重要渠道,是记录历史、思想、文化的载体,文字和文明、文化还有很大的关系,现在很多人用惯了拼音输入法,很可能造成提笔忘字等现象,这是挺遗憾的一件事情。

有一句话这样说,一图胜千言,但是有时候如果图片当中没有文字,我们很难理解这幅图片的含义。如图所示,左边图是我在法国一家酒店里拍的照片,右边图是一幅漫画,大家能够猜到它们表达什么意思吗?特别是左边这个图,当时坑了我很久。右边图中配文是“心中的天气是晴是雨全在自己”。没有图片我们可能表达起来不是那么生动,但是没有文字,有时可能无法理解其含义。比如这幅图,没有文字说明很难猜其表达什么含义,其实它的配文是来自《金刚经》中的一句话“一切法无我,得成于忍”,讲凡事包容、忍耐的道理。再举个例子,这是个一个商品、商品包装的里面的正反面,大家第一眼看到可能想到这一定是药品或保健品,但是实际上它是一个食品——葡萄干。所以,我这里想表达一个观点就是,文字的重要性是非常大的,某种意义上来讲,如果给你一张图,若图上有文字,80%以上的情况下,图上的文字信息是最重要、最有信息量的。所以文字识别这个问题是一个重要的人工智能问题,从这个角度看,文字识别的问题如果没有解决好,人工智能就不能称得上真正的、完整的人工智能。

image
image

下面我讲讲文字识别的一些技术的现状。文字识别包括文档分析和文字识别两个部分。从文字获取的途径可以把文字识别分成OCR和在线文字识别两大类。OCR是处理及识别通过光学设备,如数码相机、扫描仪获取的文档图像,在线文字识别是处理通过数字笔、触摸屏捕捉的文字数据。两类问题都有很多不同的研究子问题及应用场景,今天由于时间关系,我重点给大家介绍一些领域的现状,以及它面临的挑战和机遇。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值