使用pytesseract图像处理之中文识别（二）

最新推荐文章于 2024-08-07 07:15:00 发布

小白掌柜

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量1.7w

点赞数 14

分类专栏： Python图片识别 Python Tesseract 文章标签： tesseract OCR 图片识别机器学习

本文链接：https://blog.csdn.net/weixin_41013322/article/details/88670450

版权

本文介绍了使用pytesseract进行中文图像识别的方法，包括下载安装中文识别包chi_sim，解决环境变量配置问题，以及识别效果的讨论。在遇到TesseractError时，通过检查环境变量并正确设置tessdata路径解决了问题。识别效果受字体（如宋体）、背景清洁度影响，安装对应繁体包可提升繁体识别率。

摘要由CSDN通过智能技术生成

今天继续之前的图像识别，这次在英文的基础上开始中文识别，首先添加中文识别包：chi_sim 这个文件。下载地址：
https://github.com/tesseract-ocr/tessdata
如果你有不明白的可以去官方GitHub看看：
https://github.com/tesseract-ocr/tesseract
下载后把chi_sim 这个文件安装到你的tessdata这个文件夹下面。
注意一点：下载中文包的时候要看看你的tesseract的版本，如果你的是3.02版本的，就下3.02对应的中文包；3.05就下3.05的，一定要仔细这里。不然后面会报错！
安装好了后，我就去写代码：
在这里插入图片描述
结果发现报错如下：
pytesseract.pytesseract.TesseractError: (3221225477, ‘’)
这是怎么回事呢？明明中文包下载对的啊。试过识别英文图片的，都是正常打印出字母来。于是纳闷了一下，便开始各种谷歌，看了数篇解决方案后，发现是环境变量那里少了tessdata这个，于是点开