Tesseract-OCR识别

最新推荐文章于 2024-05-09 16:47:48 发布

Jiahao_Lin

最新推荐文章于 2024-05-09 16:47:48 发布

阅读量409

点赞数

分类专栏： ocr 文章标签： ocr

ocr 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

官方项目： https://github.com/tesseract-ocr/tesseract 。

网上详解： https://www.cnblogs.com/holden1/p/9878286.html 。

描述： Tesseract（识别引擎），一款由HP实验室开发由Google维护的开源 OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

安装说明：Tesseract-ocr安装很容易，在网上找到下载地址直接下载安装就可以，安装过程中需要注意的是语言模块（根据自己的需要选择需要安装的语言包，建议安装中文简体和中文繁体），注意记住自己安装的路径。

安装完成之后需要配置环境变量，配置完环境变量之后可以在cmd命令行中输入tesseract验证Tesseract-ocr能否使用。

除了需要配置Tesseract-ocr文件的环境变量外，还需要配置Tesseract-ocr文件下的tessdata（语言包）的环境变量。

tessdata官方语言包： https://github.com/tesseract-ocr/tessdata 。

操作说明：打开cmd，将命令行切换至目标图像文件目录，比如我们转换文件为test.png（图片文件允许多种格式），位于C:\Users\Lian\Desktop\test；然后在命令行中输入

tesseract test.png output_1 –l eng

【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

imagename为目标图片文件名，需加格式后缀；outputbase是转换结果文件名；lang是语言名称（在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata），如不标-l eng则默认为eng（英语）。

关于java项目调用操作：

1）、原始方式（cmd命令窗口）：根据传入的参数，使用 Process 和 ProcessBuilder 调用tesseract.exe执行文件识别图形内容并输出。

缺点：需要用到tesseract软件，即服务器环境里必须要安装tesseract。

2）、下载相关的第三方jar包

下载Tess4J jar：该库提供光学字符识别（OCR）支持，tess4j是针对tesseract进行封装的javaAPI。安装好依赖库之后，就不需要另外再安装tessereact-ocr了，因为tess4j的jar包里面自带了tessereact-ocr。

网址： http://tess4j.sourceforge.net/ 。

只要指定语言包即可识别图片

相关扩展：处理图片的工具库openCV： https://opencv.org/ 。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。