文通TH-OCR SDK 11,是北京文通科技有限公司研制开发的多语种亚洲语言文字识别软件开发包,提供强大的识别API开发接口,帮助用户将OCR文字识别技术无缝内嵌到用户业务系统中,为数字资源的建立提供了方便,快捷,稳定的技术手段。
TH-OCR SDK 支持简体中文、繁体中文、日文、韩文、纯英文的文字识别,具有识别率高、适应性强等突出的技术优势。
第一部分:许可协议
1.著作权声明
本产品软件著作权属于中华人民共和国北京文通信息技术有限公司(以下简称文通公司),本系统及使用说明书的著作权属于文通公司,受《中华人民共和国著作权法》、《计算机软件保护条例》以及国际版权公约和其他知识产权条约的保护。除以下授权之条款外,非经著作权人或其全权代理人之书面授权,任何与《协议书》不符的、以任何方式、任何文字所做局部或全部之复制、重制或转载、修改的行为均被法律明确禁止,违者将根据中华人民共和国有关法律承担民事及刑事责任。
2.授权
1) 您在使用期间作为合法用户应该持有《信誉卡》。此为获得售后服务、技术支持、升级服务以及进行法律追索必要的资格证明。
2) 您可在《使用许可协议》规定的范围内使用本系统。
3) “使用”指您利用本系统提供的功能对本系统的数据进行访问。
3.授权限制
1) 禁止利用本系统从事任何违反中华人民共和国现行法律、法规的活动。
2) 本系统作为一个整体,禁止您在《使用许可协议》许可范围以外使用。
禁止使用的范围包括但不限于:
(A)将本系统的部分或全部嵌入其他计算机软件系统;
(B)将本系统的任何内容用于BBS、INTERNET等多使用者的环境;
3) 禁止您将本系统的全部或部分用于销售、出租、转让、出借、散布、公开展示或从事其他损害著作权人权利的行为,不得将本系统的复制品在未得到著作权人或其代理人同意的前提下分发给任何第三方。
4) 禁止您对本系统进行任何更改、反编译(decompile)、软件还原工程(reverse-dengineer the software)、反汇编(disassemble)、或任何更改原始程序设计系统上的锁定与解除锁定。
5) 禁止非法盗拷或使用任何《使用许可协议》许可之外的存储媒介进行部分或整体内容的复制与贩售。
6) 禁止遮盖、移动或去除本系统著作权所有者的图形或文字说明。
7) 如果您未遵守《协议书》的条款,在不作任何通知的情况下,著作权人或其代理人有权终止授权。一旦发生此情况,您必须立即终止使用本系统并销毁所有副本。
4.有限担保
在本系统交付给您60天内,如发现软件载体有任何非人为的损坏,请在此期间内凭《信誉卡》与文通公司联系,可获得修理或更换。由于人为损坏、操作不当或使用错误所引起的故障,不承担任何责任。
5.对用户的赔偿
在法律所允许的范围内, 您因使用或不能使用本系统所发生的任何直接的或间接的损失(包括但不限于营业利润的损失、营业中断、商业信息的遗失或其它金钱上的损失),文通公司均不承担赔偿责任。
文通公司为本系统唯一的制作、发行、维护及进行法律追索的代理人。
未经本协议书明确授予的权利均予保留。
文通公司保留对《协议书》的解释权。《协议书》受中国法律保护和管辖,发生法律纠纷时选择北京地区的法院作为管辖法院。
第二部分:系统最小配置
操作系统: Windows 2000、Windows XP、Windows 2003操作系统 及以上版本;
CPU:586以上;
内存:256M以上。
杨晓伟
第三部分:系统文件概述
1.BIN目录
包括识别核心所需要的各种数据文件。
2.SDK目录
Th_ocr32_Dll.dll 该文件是本SDK直接调用的DLL, 供用户在程序中调用。
TH-OCR SDK 11 用户手册.PDF 即本自述文件。
Th_ocr32.h 该文件为用户用C或C++调用DLL时的include文件,主要为数据结构的定义。若用户在VB环境下调用,须转换成相应的VB格式。
Th_ocr32_Dll.lib VS2008格式的库文件,如果使用静态连接DLL,需要使用该库。
3.shared dll目录
包含VS2008下的MFC运行库
4.Driver目录
包含加密狗的驱动
第四部分:系统功能简介
本系统具有TH-OCR系统识别核心所有功能,包括:
l 支持TIFF,PCX,BMP,JPG格式图象的读取,支持Packbits和G4压缩的TIFF格式;
l 可以对图象由于扫描引起的倾斜进行自动校正;
l 可以对图象进行自动版面分析;
l 支持GB_2312码(大陆使用)、BIG_5码(台湾使用)、GBK、JIS、Shift-JIS(日文使用)、KSC(韩文)内码的输出;
l 能识别纯英文,简繁体中文、日文、韩文、中英文混排的文本图象。
第五部分系统调用方法
1.用于识别的函数
1)``TH_Start
2)``TH_StartExW
3)``TH_StartExA
4)``TH_SetOutOcrFile
5)``TH_LoadImageA
6)``TH_LoadImageW
7)``TH_SetImage
8)``TH_SetImage2
9)``TH_SetLanguage
10)``TH_Layout
11)``TH_SetRegion
12)``TH_SkewAutoRotateW
13)``TH_SkewAutoRotateA
14)``TH_Recognize
15)``TH_End
函数详细说明如下
1) TH_Start
〖声明〗 TH_ERROR WINAPI TH_Start(HANDLE hApplication);
〖功能〗系统配置和内存分配
〖参数〗 hApplication 指用户应用程序句柄,可以为空。
〖返回值〗错误代码,见TH_ERROR。
2) TH_StartExW
〖声明〗TH_ERROR WINAPI TH_Start(HANDLE hApplication, LPCWSTR lpszOcrDLLPath);
〖功能〗系统配置和内存分配
〖参数〗 hApplication 指用户应用程序句柄,可以为空。
lpszOcrDLLPath 对应动态库的绝对路径,包括.dll的后缀。
〖注意〗 在使用该接口时,要确保动态库与对应的依赖bin文件在同一目录下。而不用与所调用程序在同一目录下。
〖返回值〗错误代码,见TH_ERROR。
3) TH_StartExA
〖声明〗 TH_ERROR WINAPI TH_Start(HANDLE hApplication LPCWSTR lpszOcrDLLPath);
〖功能〗系统配置和内存分配
〖参数〗 hApplication 指用户应用程序句柄,可以为空。
lpszOcrDLLPath 对应动态库的绝对路径,包括.dll的后缀。
〖注意〗 在使用该接口时,要确保动态库与对应的依赖bin文件在同一目录下。而不用与所调用程序在同一目录下。
〖返回值〗错误代码,见TH_ERROR。
4) TH_SetOutOcrFile
〖声明〗 TH_ERROR WINAPI TH_ SetOutOcrFile (int nGeneration);
〖功能〗 简化识别过程。调用该接口可以简化识别及其识别后的处理,但其作用有限,可能产生不可预知后果。非特殊情况,不建议使用该接口。
〖参数〗 nGeneration 是否简化识别过程,默认为是。
〖返回值〗错误代码,见TH_ERROR。
5) TH_LoadImageA
〖声明〗TH_ERROR WINAPI TH_LoadImageA(LPCSTR lpszImageFile, DWORD dwImgProOption);
〖功能〗打开当前识别的图象。非Unicode函数
〖参数〗 lpszImageFile 图片完整路径。
dwImgProOption 图像处理方法,见TH_IMGPRO_OPTION;
〖返回值〗错误代码,见TH_ERROR。
6) TH_LoadImageW
〖声明〗TH_ERROR WINAPI TH_LoadImageW(LPCWSTR lpszImageFile, DWORD dwImgProOption)
〖功能〗打开当前识别的图象。Unicode函数
〖参数〗同TH_LoadImageA
〖返回值〗错误代码,见TH_ERROR。
7) TH_SetImage