在命令行中使用tesseract4识别中英文图片

当我们在Windows环境下安装了tesseract4后,需要配置环境变量
找到tesseract.exe所在的目录
在这里插入图片描述
然后在系统环境变量里的path目录添加tesseract.exe所在的目录
在这里插入图片描述
添加语言库的环境变量,找到存放语言库tessdata的目录
在这里插入图片描述
在系统环境变量里新建变量
变量名:TESSDATA_PREFIX
变量值:E:\tesseract-4.0.0\tessdata
在这里插入图片描述
这样tesseract的环境变量就全部配置完了。
我们打开cmd命令控制台,输入tesseract,显示如下信息表明tesseract.exe已经添加到path里
在这里插入图片描述
检查语言库是否正确配置
输入命令:tesseract --list-langs
显示如下:
在这里插入图片描述
以上正确显示表明tesserac环境变量正确配置成功
接下来我们来识别下面这张图片的内容
在这里插入图片描述
首先进入这个图片所在的目录
在这里插入图片描述
使用命令cd E:\image
在这里插入图片描述
使用命令

tesseract test.png out -l chi_sim+eng

然后在图片目录下输入识别结果out.txt文件

在这里插入图片描述
打开out.txt文件发现图片上文字已经正确识别
在这里插入图片描述
对命令进行详解

tesseract test.png out -l chi_sim+eng

test.png为图片名称,可以写图片具体路径和名称;out为结果输出保存文件名,默认为txt文件;-l表示使用的语言库languages;chi_sim+eng代表语言库的名称,chi_sim为简体中文,eng为英文

Tesseract是一个开源的光学字符识别引擎,用于将印刷体文本转换成可编辑或可搜索的电子文档。原本Tesseract只支持英文字母的识别,但是经过后续的改进,它现在也可以同时识别中文和日文。 要让Tesseract能够同时识别中文和日文,首先需要安装适当的语言数据文件。对于中文,可以下载和安装chi_sim.traineddata文件;对于日文,可以下载和安装jpn.traineddata文件。这些训练数据包含了用于识别相应语言的字符和模式。 安装完语言数据文件后,就可以使用Tesseract进行中文和日文文本的识别了。用户可以通过命令行或API调用Tesseract,并指定识别的语言。例如,使用命令行可以输入以下命令: tesseract image.png output -l chi_sim+jpn 这个命令将读取名为image.png的图片,并将识别结果保存到output.txt文件。参数-l表示指定识别的语言,chi_sim代表中文,jpn代表日文。通过同时指定这两个参数,Tesseract可以同时识别中文和日文。 除了使用命令行,还可以使用Tesseract的API进行中文日文识别。开发人员可以根据需要编写相应的代码,调用Tesseract的函数,并将待识别的图像和识别语言作为参数传递给它。然后,Tesseract会返回识别结果,供开发人员后续处理或展示。 总之,Tesseract通过安装相应的语言数据文件,可以同时识别中文和日文。无论是通过命令行还是API调用,用户都可以方便地利用Tesseract进行多语言文本的光学字符识别
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Keras深度学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值