没看错！一行python代码就可以帮您获取图片中的文字信息

最新推荐文章于 2024-07-25 15:53:05 发布

测试开发Kevin

最新推荐文章于 2024-07-25 15:53:05 发布

阅读量875

点赞数 2

分类专栏： Python 测试开发自动化测试文章标签： python 开发语言

本文链接：https://blog.csdn.net/liwenxiang629/article/details/130286958

版权

测试开发同时被 3 个专栏收录

184 篇文章 25 订阅

订阅专栏

自动化测试

107 篇文章 11 订阅

订阅专栏

Python

56 篇文章 4 订阅

订阅专栏

文章介绍了如何使用Python的pytesseract库结合Tesseract-OCR引擎进行图片中的文字识别。在处理中文字符时需设置lang=chi_sim，并确保安装了Pillow和正确配置了Tesseract-OCR。然而，对于复杂的校验码，Tesseract-OCR的识别效果不佳。

摘要由CSDN通过智能技术生成

最近工作中有需求需要用python对图片中的文字进行识别，调研了一下，选择了tesseract，

目前在github上有50.5k个star！python可以调用，安装也十分方便，pip install pytesseract 即可。如果没有Pillow 包，还需要执行pip install Pillow。

核心代码

读取图片中文字信息的核心api如下：

from PIL import Image
import pytesseract
captcha_text = pytesseract.image_to_string(Image.open("d:/tmp/img4.png"), lang='chi_sim')
print(captcha_text)

上面这段代码中需要解释的是如果图片中有中文字符则需要添加参数lang='chi_sim'，并在安装的过程中添加识别中文的字符库，后面会讲到！

运行代码遇到的问题

直接运行上面的代码，会遇到下面的问题

raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

我们来分析一下这个错误！错误提示tesseract没有安装，但是我们明明已经执行了pip install pytesseract，那么问题会出在哪里呢？

我们需要先了解一下pytesseract，它是一款用于光学字符识别（OCR）的python工具，即从图片中识别出和“读取”其中嵌入的文字，底层使用的是Google的Tesseract-OCR 引擎，pytesseract只是对Tesseract-OCR的一层封装！看到这里我们就能够理解，运行python代码

pytesseract.image_to_string() 报错的原因了！因为我的PC上并没有安装Tesseract-OCR，pytesseract是无法调用Tesseract-OCR的api为我们干活的！