基于百度AI的云猫OCR开发实录之评测篇

  • 概述

   笔者是在2017年接触百度云服务平台的,在这里我也称之为百度AI 。“AI”这个词真的很奇妙,它来源于英语词组“Artificial Intelligence”,取首字母就成了AI ,而与此同时,中文AI的发音就是“爱”,这是巧合吗?还是说大自然的安排?

   现在回到话题,本文是评测篇,因为笔者根据百度AI提供的函数接口,自行编程实现了一款OCR软件——云猫OCR。云猫OCR大部分的代码开发是在2017年底前完成的,之所以雪藏到现在,是因为笔者的一些私人事务(小孩出生等)——我是利用业余时间进行软件开发的,所以中断了大概一年多的时间,现在才有空继续这个项目。因为本文主要是评测,所以我不会说太多关于编程代码的事,适当的时候我会考虑写个代码篇,请各位看官期待一下。

  • 评测的具体内容
  • 准备工作

   在使用云猫OCR之前,我们必须先去百度云官网进行注册账号,有了账号以后,我们还要去具体的云服务项目下申请API Key和Secret Key ,一般这两个Key是用户各人保管的,不能随便透露给外人。因为百度云现在已经正式收费,而用户每人每天的免费调用次数都是有限的,提高限额需要支付费用,用户使用百度云AI接口的依据主要就是这两个Key,所以我们要保管好。下面是简单的准备工作图片说明:

  • 正式使用云猫OCR

用户有了百度云API Key和Secret Key之后,就可以正式使用云猫OCR了。具体使用步骤如下:

  • 评测的具体内容

   首先介绍一下云猫OCR调用的百度AI的主要接口,首先是通用文字识别(带位置版),其次是通用文字识别(带位置高精度版),最后是表格文字识别,下面依次介绍这三种识别。

  1. 通用文字识别(带位置版)和通用文字识别(带位置高精度版)的混合使用

如上图所示,用户可以选择多种语言(包括德语、法语、西班牙语等等),选择好后点击文字识别即可。因为百度云提供的高精度文字识别接口只支持中英文,而通用的文字识别支持除中英文以外的多种语言,所以笔者在编写软件中,这两种接口是混合使用的,具体怎么混合使用请看代码篇。一般情况下,高精度的文字识别效果比通用的好,但也比较耗时。

本软件支持识别的文字结果在本机保存为文件,具体如下图操作:

保存的文件是rtf格式,可以用WPS或者Office Word打开。下面再给出一次性识别20张图片的统计结果图示:

从上图可以看出,百度云的文字识别结果速度还是不错的,识别速度是平均大概2-3秒一张图。

  1. 表格文字识别

表格文字识别的主要步骤如下图所示:

从上图可以看出,表格文字识别的速度比普通文字识别要慢一些,大概需要5-6秒。

评测总结:百度OCR对于印刷体的识别还是不错的,比起以前的OCR软件来说,百度OCR可以说是革命性的进步。当然,它也有自己的短板。比如手写体的识别,笔者还没有评测,但百度云通用文字高精度接口对手写体的识别是较差的。再比如QPS并发,我的理解是可以提高OCR文字识别的速度,对于大量的图片文字识别来说尤其是重要,可以节省大量时间。但遗憾的是,百度云对并发好像做的不太好,程序不一定支持QPS并发,这个缺点我们也是希望百度后面能够有所改正。

附云猫OCR下载地址:

https://ai.baidu.com/forum/topic/show/955975

2019年9月11日

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的狐狸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值