OCR
谷震平
这个作者很懒,什么都没留下…
展开
-
OCR----Tesseract 3.x架构及原理解析
Tesseract的历史Tesseract是一个开源的OCR引擎,惠普公司的布里斯托尔实验室在1984-1994年开发完成。起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹,受到广泛关注。后来HP放弃了OCR市场。在1994年以后,Tesseract的开发就停止了。在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息原创 2016-03-30 22:20:18 · 40279 阅读 · 11 评论 -
OCR----Tesseract引擎核心类TessBaseAPI的操作
前言写了两篇博文介绍了:Python调用Tesseract引擎(Ubuntu下) Tesseract 3.x 架构及原理解析 这一篇将更加深入OCR的世界!不得不把一些和本专栏(后面会整理出一个系列)相关的参考资料列出来,帮助大家建立知识体系。1 Tesseract的环境安装 –> 谷震平的传送门 2 Tesseract的使用方法:主要是命令行的使用 –> 传送门 3 Tesseract的原创 2016-03-31 22:12:57 · 15576 阅读 · 6 评论 -
OCR----Python调用Tesseract引擎(Ubuntu下)
前言 最近再搞OCR的,用于识别日文报刊,是公司的一个日本项目,做的我是苦不堪言。最近把自己的工作内容写出来,也会做一个系列和专栏,欢迎关注! 想搞好这个OCR,需要读论文。好在只需要读4篇,都是Tesseract的作者Ray Smith写的。Tesseract目前被Google维护并开源,以后的前景应该会非常好。原创 2016-03-30 17:51:47 · 13023 阅读 · 4 评论 -
OCR----你不得不知的Tesseract六大重要核心
Abstract整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了T原创 2016-05-16 11:28:55 · 24785 阅读 · 11 评论