linux下安装pytesseract和tesseract-ocr

sudo add-apt-repository ppa:alex-p/tesseract-ocr
pip install pytesseract
# 安装OCR引擎
sudo apt-get install tesseract-ocr
# 安装训练数据(equ为数学公式包)
sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim  tesseract-ocr-equ

pytesseract是google做的ocr库,可以识别图片中的文字.

import pytesseract
from PIL import Image
image = Image.open("1.jpg")
text = pytesseract.image_to_string(image,lang='chi_sim') #使用简体中文解析图片
print(text)

可参考:python 技术篇-3行代码搞定图像文字识别,pytesseract库实现

安装pytesseract库和tesseract-ocr引擎的步骤如下: 1. 首先,确保你已经安装了Python和pip。 2. 打开命令行终端,并执行以下命令来安装pytesseract库: ```shell pip install pytesseract ``` 3. 安装完成后,你还需要安装tesseract- Windows: - 访问https://github.com/UB-Mannheim/tesseract/wiki下载最新的tesseract-ocr安装程序。 - 运行安装程序,并按照提示完成安装。 - 在安装过程中,记住tesseract-OCR。 - macOS: - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell brew install tesseract ``` - Linux(Ubuntu): - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell sudo apt-get install tesseract-ocr ``` 4. 安装完成后,你还需要配置pytesseract库以使用正确的tesseract-ocr引擎路径。根据你的操作系统,可以按照以下步骤进行配置: - Windows: - 打开pytesseract库的安装目录,例如:C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract。 - 打开pytesseract.py文件,并找到以下行: ```python tesseract_cmd = 'tesseract' ``` - 将该行修改为你的tesseract-ocr引擎的路径,例如: ```python tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' ``` - macOS和Linux: - 不需要进行额外的配置,pytesseract库会自动找到正确的tesseract-ocr引擎路径。 5. 现在,你已经成功安装了pytesseract库和tesseract-ocr引擎。你可以在Python代码中导入pytesseract库,并使用它来进行OCR(光学字符识别)操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值