Tesseract的历史
Tesseract是一个开源的OCR引擎,惠普公司的布里斯托尔实验室在1984-1994年开发完成。起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹,受到广泛关注。后来HP放弃了OCR市场。在1994年以后,Tesseract的开发就停止了。
在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息技术研究所获得该源码,同时,Google开始对Tesseract进行功能扩展及优化。目前,Tesseract作为开源项目发布在Google Project上,重获新生。Tesseract的最新版本是3.02,它支持60种以上的语言,提供一个引擎和一个命令行工具,官方下载地址:谷震平的传送门。
第一步:准备工具
1.1、下载tesseract-3.00源码库,下载地址:https://download.csdn.net/download/cwj066/10664829
1.2、下载安装Qt Creator
第二步:把tesseract-3.00源码库提取成两个文件OCR.h和OCR.cpp
2.1、提取过程艰辛,就不一一详解,稍后把工程和提取的源码一起上传博客资源,需要的可以去下载,提取出来的如下: