tesseract-OCR
第一步:下载后傻瓜式安装即可,路径可自行定义,语言包可自行勾选,但勾选语言包较多时下载较慢,本人建议直接安装,安装后根据需要再去下载语言包。
第二步:配置环境变量
将tesseract-OCR安装的地址配到环境变量path中
使用方式:
打开终端 输入
查看版本信息:tesseract -v
查看现有语言包:tesseract --list-langs
语言包下载地址:OCR语言包下载 提取码:tocr
python使用方式
pytesseract安装:pip install pytesseract
PIL安装:pip install pillow
import pytesseract
from PIL import Image
# 然后指定 tesseract 目录,该目录是安装tesseract-OCR的目录:
pytesseract.pytesseract.tesseract_cmd = "D:/tool/Tesseract-OCR/tesseract.exe"
# 然后使用 pillow 库加载图片:
img = Image.open('图片路径')
# 最后使用 tesseract 识别图像的文字,chi_sim中文简体:
text = pytesseract.image_to_string(img, lang='chi_sim')
print(text)
# 查看识别效果 conf=-1时说明未识别出
print(pytesseract.image_to_data(img,lang='chi_sim'))