开源的OCR库

开源的OCR库

 

 

OCRE, OCR Easy,    http://lem.eui.upm.es/ocre.html

Clara OCR,              http://directory.fsf.org/claraocr.html

Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

GOCR,                     http://sourceforge.net/projects/jocr

OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

http://code.google.com/p/tesseract-ocr/

gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。

 

OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。

 

tesseract 用VC ,10年前的东西,太老, 里面很多代码是STL的原型

 

 

 

 

  Tesseract是一个开源OCR程序

 

  之前就有看见有人在说,tesseract是10好几年前的东西,太老了。但是就在9个小时前,Tesseract OCR的开发人员用事实告诉世人,Tesseract OCR不但活着,还在不断地自我完善中。

 

  2010年9月30日,Tesseract 正式发布了它的3.0版本(http://code.google.com/p/tesseract-ocr/)。

 

  这次更新主要做了以下工作:

  1. 为线程安全做了一些筹备工作:更改TessBaseAPI方法被非静态;为目录创建类的层次结构,以容纳实例数据,并开始移植代码到类当中;移动阈值代码到一个单独的类。

  2. 增加了新的页面布局分析模块。

  3. 新增HOCR输出。

  4.添加Leptonica作为主要的图像输入输出及处理模块。现在,是否使用Leptonica是可选的,但是在未来的版本中,Leptonica是必须使用的模块。  http://www.leptonica.org/index.html

  5. 重写歧义表(模糊表?),允许在fix_quotes中定义替换方式。

  6. 新增TessdataManager,它可以将多个Tesseract特征数据文件合并成一个单一的文件。

  7. 删除一些无用的代码。

  8. 因为VC++ 6不能很好地应付模板的使用,它不再被Tesseract支持。

  9. 对大部分的函数头注释进行了修改。

 

  还有一点没有写在官方的release notes里面,但是我个人觉得是非常非常好的改进:支持识别更多的语言,其中就包括简体中文和繁体中文。

 

 

利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值