“汉王标准印刷体OCR SDK开发工具包”介绍
一、功能介绍
A 基础功能模块
1.输入图像格式:
可识别彩色(24BITS)、灰度(256阶)和黑白二值图像。支持TIFF、BMP、JPG、PDF格式的图像文件,对于合并后PDF和TIF,我们可以提供技术解决方案。
2.输入版面格式:
能自动分析出横排文本、竖排文本、表格和图像等区域,并对文本和表格区域的文字进行识别。
3.输入字体格式:
可识别中文简体、台湾繁体、香港繁体、英文及中英混排、简繁混排等印刷文本。
4.输入字体:
可识别宋、仿宋、楷、黑、魏碑、隶书、行楷、幼圆等一百多种中文字体,识别字号介于“小六号”和“初号”。
5.输出文本字符集
可输出GB、GBK、BIG5、unicode码结果文本。
6.标准印刷体汉字识别:可达到99.7%;
7.印刷体数字识别:
具有4个独立的识别引擎,识别率可达到99.5%。
8.输出识别结果
可输出TXT、XLS、RTF、PDF、HTML等格式文本文件,RTF、PDF格式支持版面还原。
9.可获取识别文字信息,包含字符在图像中的坐标、字体、字号、可信度和候选字。
10.可获取版面分析后,框的坐标以及框的属性(横竖排、图像、文字、表格等属性)。
11.开发环境
提供VC开发的DLL动态库,支持C++、VC、VB、JAVA、.Net、Delphi等语言。
12.支持系统平台
支持Windows平台、个别支持Linux。
13.支持对内存中的图像(比如用一个数组来表示)进行识别,并把结果也放在内存中。
14.表格识别: 自动判断、识别各种通用型印刷体表格。电子表格还原准确精美,输出的电子表格可随意编辑。在国家级评比中荣获第一名。
15.可以准确识别公文的题头、正文、公章等区域,并将识别结果按原版面精确还原。
16.识别速度: 在PIV-2.0计算机上,印刷文稿识别速度达1000字/秒。
B 可选功能模块
1.多国文字识别
支持日、韩、法、意、德、西班牙、瑞典、葡萄牙、丹麦、荷兰、挪威等国文字的识别,标准印刷体字符识别率达到96%以上。
2.手写体数字识别:
具有3个独立的识别引擎,识别率达99%以上。
3.支持有规律的复杂表单、票据的识别。
二、应用方式
1.单机版(在服务器端应用):
此种模式的实现方式:
将“汉王标准印刷体OCR SDK开发工具包”装载在服务器端,识别工作在服务器上进行;
通过客户端和服务器端的交互,实现对客户端图像文件的识别,实现方式如下:
客户端将需要识别的图像上传至服务器
服务器根据文件上传时间对所需图像进行排序并逐一识别
服务器将识别结果发回给相对应的客户端
客户端对识别结果加以利用
2.单机版(在客户端应用):
如果用户在B/S网络环境下,希望利用“汉王标准印刷体OCR SDK开发工具包”单机版实现多台客户终端同时识别,可以采用如下方式(如图例所示):
① 在需要进行识别的客户端安装识别程序,每个客户端的识别程序配以加密狗共同使用;
② 在客户端对需要识别的图像文件进行识别;
将识别结果上传至服务器端,实现网络共享;
优点:
识别环节在各个客户端进行,识别工作不受网络容量的限制;
各客户端的识别环节彼此分离,一个客户端识别程序如果出错不会影响到其他客户端识别工作的进行;
降低服务器的工作负荷;
3.网络版:
实现方式如上图所示:
在B/S网络环境下的每个客户端装载OCR识别程序;
在服务器端进行设置,用网络加密狗对使用授权进行加密,并限定并发用户数;
需要使用识别功能的客户端发送请求至服务器,取得服务器验证通过后在客户端进行识别工作;
同时进行识别工作的客户端总数应小于或等于网络版限定的并发用户数;
如n台客户端(n>网络版限定的并发用户数)都需要进行识别工作,则未得到服务器认证的客户端处于等待状态,待其他客户端完成识别工作并退出识别程序后才能进行识别;
在网络和服务器支持的情况下,“汉王标准印刷体OCR SDK开发工具包” 网络版的并发数在理论上可无穷大。
三、汉王OCR SDK的特点
1、识别率高:特别是中文简繁汉字的识别,一直以来都受到用户的高度认可。
2、稳定性强:汉王OCR的市场占有率很高,在与大量用户合作的过程中,我们不断在改进和完善我们的产品,因此用户可以放心的嵌入到自己的软件产品中,真正实现产品的增值,最大可能的减少了最终使用者因为使用OCR不稳定而产生抱怨。
3、特殊处理的能力强:多年的服务经验使我们的OCR技术能够处理千变万化的文档资料。
4、对服务器的要求低:汉王OCR并不需要高配置的机器,对用户的设备没有太大的限制。
四、汉王的优势
1、核心技术荣获多项国家级荣誉,被国内超过80%的专业数据加工商用于其核心业务领域。
2、结合多年为软件集成商服务的经验,汉王OCR SDK始终