Python3.8+pytesseract+Tesseract-OCR5.0图片文字识别

1.环境

  1. python版本:3.8.3 (python2.7或3以上)
  2. 操作系统:windows系统

2.工具安装和配置

1.下载安装 tesseract-ocr:官网地址
2.下载安装Pycharm(下载地址:http://www.jetbrains.com/pycharm/download/#section=windows)
3.添加环境变量:TESSDATA_PREFIX = C:\Program Files (x86)\Tesseract-OCR
4.编辑文件:E:、ProgramsPython\Python38\Lib\site-packages\pytesseract\pytesseract.py

tesseract_cmd = 'tesseract'
#改为:
tesseract_cmd = 'E:/Programs/Tesseract-OCR/tesseract'

1.使tesseract-ocr与python关联,从而使python能够调用Tesseract-OCR程序识别验证码/文字,否则会处问题报错:
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
2. 注 : 新 手 一 定 要 注 意 / 与 \ 的 区 分 \color{red}{注:新手一定要注意/与\backslash的区分} /\

3.安装相关python包

我使用的是py3.8.3—— 还 重 装 了 , 安 装 目 录 不 要 有 空 格 哇 o ( ╥ ﹏ ╥ ) o         \color{red}{还重装了,安装目录不要有空格 哇o(╥﹏╥)o~~~~~~~} o()o       

pip install Pillow
pip install pytesseract

4.使用

from PIL import Image
import pytesseract

# 识别的图像的字符串
print(pytesseract.image_to_string(Image.open('test.png')))
# 指定语言识别图像字符串,eng为英语
print(pytesseract.image_to_string(Image.open('test.png'), lang='test.png'))

在此需要告诉新手的其中test.png是存放在py脚本的目录下,lang='chi_sim’代表中文识别,如果不加无法识别中文

5.运行脚本可以看到结果

虽然可以识别验证码了,但是这工具识别很不准确,除非没有什么干扰的验证图片才好些。只能识别还是不那么好啊。
特别提醒:如果步骤完全正确,但是运行报错,请卸载pytesseract重新安装问题就会解决(卸载命令pip uninstall pytesseract)

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
安装pytesseract库和tesseract-ocr引擎的步骤如下: 1. 首先,确保你已经安装了Python和pip。 2. 打开命令行终端,并执行以下命令来安装pytesseract库: ```shell pip install pytesseract ``` 3. 安装完成后,你还需要安装tesseract- Windows: - 访问https://github.com/UB-Mannheim/tesseract/wiki下载最新的tesseract-ocr安装程序。 - 运行安装程序,并按照提示完成安装。 - 在安装过程中,记住tesseract-OCR。 - macOS: - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell brew install tesseract ``` - Linux(Ubuntu): - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell sudo apt-get install tesseract-ocr ``` 4. 安装完成后,你还需要配置pytesseract库以使用正确的tesseract-ocr引擎路径。根据你的操作系统,可以按照以下步骤进行配置: - Windows: - 打开pytesseract库的安装目录,例如:C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract。 - 打开pytesseract.py文件,并找到以下行: ```python tesseract_cmd = 'tesseract' ``` - 将该行修改为你的tesseract-ocr引擎的路径,例如: ```python tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' ``` - macOS和Linux: - 不需要进行额外的配置,pytesseract库会自动找到正确的tesseract-ocr引擎路径。 5. 现在,你已经成功安装了pytesseract库和tesseract-ocr引擎。你可以在Python代码中导入pytesseract库,并使用它来进行OCR(光学字符识别)操作。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值