图片识别——Tesseract

最新推荐文章于 2024-07-04 10:25:39 发布

storyflow

最新推荐文章于 2024-07-04 10:25:39 发布

阅读量1.8k

点赞数

分类专栏：后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Time888/article/details/54668286

版权

后端专栏收录该内容

132 篇文章 2 订阅

订阅专栏

Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别，经过改进引擎和训练系统，它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符，但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言（比如中文）上较慢，但是工作良好。

识别：
二值化、灰度、倾斜校正和图片（文字）切割
遍历所有像素点，然后二值化【比如判断RGB值小于#FFFFFF的（即非白色）时候标记为1，大于等于#FFFFFF（即白色）的标记为0，存进二维数组】

排版英文，数字，简单验证码
手写的数字，中文识别等不太好

基本使用方法：
tesseract images/abc.jpeg out -l eng -psm 7 digits
images/abc.jpeg：输入待OCR的图片；
out：输出结果到终端，也可用文件名，表示输出到文件；
-l eng：使用英文识别库；
-psm 7：表示分页方式，7表示将图片视为单行文字；
digits：识别配置文件，这里表示只识别数字。

中文库目前：
https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

训练：
支持tiff需要安装 libtiff和leptonica
1、制作box file
通过命令生成.box或者下载windows工具
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
其中lang为语言名称，fontname为字体名称，num为序号，可以随便定义。
2、利用jTessBoxEditor
生成的.box要和这个.tif文件同在一个目录下。
逐个校正文字，后保存。
3、合并

其他说明：
更多参考：http://wangjunle23.blog.163.com/blog/static/117838171201323031458171/
商业化：ABBYY Finereader
在线ocr地址：https://www.newocr.com/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。