简介
计算机可以从图像或视频流中获取信息的过程属于计算机视觉领域。
文本识别服务是计算机视觉的一部分。也是当前最火的人工智能应用,文本识别服务可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来。打开相机就可以轻松将图片或者实景中的文字转换为文字信息。
使用场景
- 在寄快递场景下,通过识别上传的图片,能快速将收件人姓名、电话、收件人地址等重要信息填入对应位置
- 结合翻译功能做到实时拍照翻译,面对原本看不懂的菜单,看不懂的路标等等,使用这个功能,让用户在异国也不用担心看不懂文字,我们已经写好了相关代码,可以访问博客查看具体实现流程
https://blog.csdn.net/weixin_38132951/article/details/107352702
- 平时也会经常使用到pdf文档转word,在本质上也是使用了文本识别的能力。同时,在平时的生活中有时候也需要将图片中的文字提取出来发给朋友或者自己写进备忘录。
能力展示
首先让我们来看一下利用华为MLKit的文本识别能力。
功能描述
识别语种
该服务可以同时支持设备端和云端,不过其能识别的文字种类有区别。当调用设备端接口时,仅可识别中文(简体)、日文、韩文、拉丁字符(支持的拉丁字符参见文字识别客户端支持的拉丁字符)。当调用云端接口时,可以识别中文(简体)、英文、西班牙文、葡萄牙文、意大利文、德文、法文、俄文、日文、韩文、波兰文、芬兰文、挪威文、瑞典文、丹麦文、土耳其文、泰文、阿拉伯文、印地文、印尼文等文字。
文本识别特性 | 文本识别特性 |
---|---|
端侧 | 支持中、日、韩、拉丁字符 |
云侧 | 中、英、法、西、泰语等19个语种 |
倾斜识别 | 30度倾斜情况下依然可以识别 |
弯曲文字支持 | 支持45度弯曲情况下依然可以成功识别 |
文字跟踪 | 端侧支持跟踪 |
识别方式
该服务支持静态图片识别和动态视频流识别,同步和异步两种调用方式,通过提供丰富的API,可帮助开发者快速构建各种文本识别应用。
详见华为开发者联盟官网:
https://developer.huawei.com/consumer/cn/doc/development/HMSCore-Guides/text-recognition-0000001050040053