tesseract 识别中文的时候出现乱码 tesseract不能正常识别中文的时候可以注意下这个细节

环境:vs2019 tessreact5.3.1
问题:tesseract 识别乱码 其实有时候不是识别失败 是因为utf8没转gb2312导致显示的乱码
本人萌新 被这个问题卡了几天 百度并没这些相关问题....

一开始以为是识别失败导致的  最后才发现是utf8需要转成gb2312才可以

转换后就正常了 如下图


 

Tesseract是一个开源的光学字符识别引擎,用于将印刷体文本转换成可编辑或可搜索的电子文档。原本Tesseract只支持英文字母的识别,但是经过后续的改进,它现在也可以同时识别中文和日文。 要让Tesseract能够同时识别中文和日文,首先需要安装适当的语言数据文件。对于中文,可以下载和安装chi_sim.traineddata文件;对于日文,可以下载和安装jpn.traineddata文件。这些训练数据包含了用于识别相应语言的字符和模式。 安装完语言数据文件后,就可以使用Tesseract进行中文和日文文本的识别了。用户可以通过命令行或API调用Tesseract,并指定识别的语言。例如,使用命令行可以输入以下命令: tesseract image.png output -l chi_sim+jpn 这个命令将读取名为image.png的图片,并将识别结果保存到output.txt文件中。参数-l表示指定识别的语言,chi_sim代表中文,jpn代表日文。通过同时指定这两个参数,Tesseract可以同时识别中文和日文。 除了使用命令行,还可以使用Tesseract的API进行中文日文识别。开发人员可以根据需要编写相应的代码,调用Tesseract的函数,并将待识别的图像和识别语言作为参数传递给它。然后,Tesseract会返回识别结果,供开发人员后续处理或展示。 总之,Tesseract通过安装相应的语言数据文件,可以同时识别中文和日文。无论是通过命令行还是API调用,用户都可以方便地利用Tesseract进行多语言文本的光学字符识别
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值