Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)

Python 全栈工程师核心面试 300 问深入解析(2020 版)----全文预览
Python 全栈工程师核心面试 300 问深入解析(2020 版)----欢迎订阅

Win10环境安装tesseract-ocr4.0.0并配置环境变量

1. 下载tesseract最新版

tesseract最新版下载地址:
https://github.com/UB-Mannheim/tesseract/wiki
windows系统选择32位或者64位下载即可
其它操作系统下面网址选择相应的版本
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

2. tesseract安装

双击软件安装,一直下一步,但是有几处需要注意勾选上:

  1. 数据包和语言包,直接勾选上
  2. 安装位置自己选择,或者默认
  3. 由于是国外网站,安装下载语言包过程比较慢,我200M宽带速度也不稳定,等待了20分钟左右才安装结束.语言包中可以只勾选简体中文(chi_sim)和繁体中文(chi_tra),安装速度回快很多。
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
安装完成后就可以设置环境变量了

3. 设置系统环境变量Path

桌面上此电脑->右键属性打开界面->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值,然后确定
参考下图步骤:
在这里插入图片描述
在这里插入图片描述
新建一个变量,路径名,就是安安安装的Tesseract-OCR文件夹的路径地址,如下图
在这里插入图片描述

4. 新建系统变量TESSDATA_PREFIX

系统变量下面新建一个TESSDATA_PREFIX变量名,路径就是tessdata文件夹的路径地址,复制过来即可
在这里插入图片描述

5. 查看软件版本及语言库

运行CMD命令
输入:tesseract -v,可以看到版本信息
输入:tesseract --list-langs来查看本地Tesseract-OCR支持语言库
在这里插入图片描述
在这里插入图片描述

6. 图像识别简单案例

画图编辑一张12345的图片,可以直接复制保存到桌面
在这里插入图片描述
打开CMD窗口,切换到桌面,
执行命令:tesseract 图片名称 输出文件名称
执行:tesseract test.png result eng
eng(用英文语言包识别,可以不写)
桌面自动就有了识别的结果result.txt
如下图:识别还是比较准确,但是后面多了一个符号
在这里插入图片描述
第二次测试,上面数字可以准备识别,但是中文,就识别不了,机器需要慢慢学习才可以
在这里插入图片描述

7. 图像识别简单案例(Python3.7实现)

先PIP 安装pytesseract包

# Tesseract OCR图像识别

import pytesseract as pt
from PIL import Image

# 生成图片案例
image = Image.open('D:\Hello World\python_work\TLXY_study_note\Spider\图像识别测试.png')

# 调用pytesseract将图像转换成文字
text = pt.image_to_string(image)
print(text)

输出结果

"D:\Hello World\python_work\TLXY_study_note\venv\Scripts\python.exe" "D:/Hello World/python_work/TLXY_study_note/Spider/3. 动态HTML/77_3.py"

12 3 4 5

Process finished with exit code 0
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值