pycharm中tesserocr和pytesseract库的安装与使用

前言

这两个库的安装与使用折磨了小白博主几个小时,也是综合了各方资料肝出了这篇较为详细的几乎零基础的tesserocr和pytesseract库的安装与使用教程(主要介绍安装部分),可以帮大家少走一些弯路,利用tesserocr或者pytesseract库,前提是已经安装好Tesseract-OCR软件(文后有安装链接),tesserocr库的安装,问题不大,但要配合tesseract-OCR使用,麻烦死了,反正我搞了好久,还是有一些莫名的错误,听我一句劝就用pytesseract吧!

Tesseract-OCR安装

安装过程如下:
1.下载安装包(直接点开文末链接,下载最新版本就行了)
我安装的是这个:
在这里插入图片描述
带dev的为开发版本,不带dev的为稳定版本
2.打开下载的.exe文件,进行安装,建议按默认选项一路同意下去,然后就安装成功,
在这里插入图片描述
安装过程中,红色框框部分,可以设置下载各个语言的语言包,也可以点‘+’进行选择性下载,默认语言包为英语的语言包,个人感觉这样下载过慢,可以之后进入官网直接下载对应语言包,下载完成后放到Tesseract-OCR\tessdata\目录下
注:chi_sim.traineddata为简体中文语言包,可在cmd中运行tesseract --list-langs命令,查看已安装的语言包
3、设置环境变量
进入环境变量设置面板(不知道如何进入可以自行百度),出现如下界面:
在这里插入图片描述
依次操作,如下图:

  • 1.编辑文本
  • 2.加入Tesseract-OCR软件安装路径(默认为C:\Program Files\Tesseract-OCR,注意各个环境变量以’;'间隔)
  • 3.加入之后,会出现3的情况,环境变量设置ok了
    在这里插入图片描述
    在这里插入图片描述
    4、查看是否成功
    打开cmd,输入tesseract回车,出现如下界面表示成功:
    在这里插入图片描述

pytesseract库配置

1.安装pytesseract库
和普通包一样,直接pip
2.配置pycharm路径
进入下图界面,打开该文件:
在这里插入图片描述
编辑文件,改成下图所示:
在这里插入图片描述
注意:C:\Program Files\Tesseract-OCRC:\Program Files\Tesseract-OCR\tesseract.exe,这是文件所在路径,但直接把文件部分改为该路径,运行仍会报错,而应该改成C:/Program Files/Tesseract-OCRC:/Program Files/Tesseract-OCR/tesseract.exe,二者区别仅仅是’\‘与’/'
3.程序测试

import pytesseract
from PIL import Image
img = Image.open('code.jpg')
img = img.convert('RGB')
img.show()
print(pytesseract.image_to_string(img))

# 输出结果:4XWL

code.jpg
在这里插入图片描述
4.大功告成(^-^

tesserocr库配置

简介

再windows中安装tesserocr是比较麻烦的,如果没有Anaconda,不能直接pip,推荐pytesseract
库,下面只简单介绍一下思路

安装

方法一:
下载匹配的whl文件。链接地址:
https://github.com/simonflueckiger/tesserocr-windows_build/releases ,里面只有对应tesseract4.0.0及以下版本,可在cmd中运行tesseract -v查看自己tesseract的版本。下载对应文件时注意自己是win32还是win64,以及自己python版本
在这里插入图片描述
以我为例python37,win64
下载之后

pip install D:\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl

自己下载文件的路径
方法二:
有Anaconda,直接

conda install -c simonflueckiger tesserocr

可以下个miniconda和pycharm配合使用,个人觉得还行

链接分享

Tesseract-OCR 下载地址: http://digi.bib.uni-mannheim.de/tesseract
Tesseract-OCR语言包:https://github.com/tesseract-ocr/tessdata
tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
pytesserocr PyPI:https://pypi.org/project/pytesseract/
以上就是全部内容了,有错误与不足望指出O(∩_∩)O!

### 如何在 PyCharm安装 Tesseract 为了在 PyCharm使用 Tesseract OCR ,需要完成两个主要部分的设置:一是安装 Tesseract 的命令行工具;二是通过 pip 安装 Python 绑定 `pytesseract`。 #### 安装 Tesseract 命令行工具 对于不同操作系统而言,Tesseract 的安装方式有所不同: - **Windows 用户** 可以下载预编译二进制文件并按照说明进行安装。通常建议从 GitHub 上获取最新版本[^1]。 - **macOS 用户** 利用 Homebrew 来简化这一过程,只需打开终端输入如下指令即可完成安装: ```bash brew install tesseract ``` - **Linux 发行版用户** (如 Ubuntu/Debian),可以借助包管理器 apt-get 进行快速部署: ```bash sudo apt-ocr ``` #### 使用 Pip 安装 pytesseract 无论在哪种平台上操作,在成功配置好上述命令行工具之后,下一步就是在项目环境中安装对应的 Python 接口 `pytesseract`。这可以通过 PyCharm 自带的包管理功能实现,具体做法是在 IDE 内部启动 Terminal 或者直接编辑项目的 requirements.txt 文件加入依赖项名称。 如果偏好图形界面,则可通过 Preferences -> Project Interpreter 页面点击加号按钮搜索并添加所需软件包。 ```python import pytesseract from PIL import Image # 测试是否能正常调用 Tesseract print(pytesseract.image_to_string(Image.open('test.png'))) ``` 确保路径变量已正确指向 Tesseract 执行档位置(特别是在 Windows 下),否则可能遇到找不到命令的情况。此时需手动指定完整路径给 `pytesseract.pytesseract.tesseract_cmd` 属性。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值