使用pytesseract图像处理之中文识别(二)

本文介绍了使用pytesseract进行中文图像识别的方法,包括下载安装中文识别包chi_sim,解决环境变量配置问题,以及识别效果的讨论。在遇到TesseractError时,通过检查环境变量并正确设置tessdata路径解决了问题。识别效果受字体(如宋体)、背景清洁度影响,安装对应繁体包可提升繁体识别率。
摘要由CSDN通过智能技术生成

今天继续之前的图像识别,这次在英文的基础上开始中文识别,首先添加中文识别包:chi_sim 这个文件。下载地址:
https://github.com/tesseract-ocr/tessdata
如果你有不明白的可以去官方GitHub看看:
https://github.com/tesseract-ocr/tesseract
下载后把chi_sim 这个文件安装到你的tessdata这个文件夹下面。
注意一点: 下载中文包的时候要看看你的tesseract的版本,如果你的是3.02版本的,就下3.02对应的中文包;3.05就下3.05的,一定要仔细这里。不然后面会报错!
安装好了后,我就去写代码:
在这里插入图片描述
结果发现报错如下:
pytesseract.pytesseract.TesseractError: (3221225477, ‘’)
这是怎么回事呢?明明中文包下载对的啊。试过识别英文图片的,都是正常打印出字母来。于是纳闷了一下,便开始各种谷歌,看了数篇解决方案后,发现是环境变量那里少了tessdata这个,于是点开

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值