python爬虫学习：tesseract之实现图片里文字的识别

最新推荐文章于 2022-07-27 15:33:17 发布

代码小杰

最新推荐文章于 2022-07-27 15:33:17 发布

阅读量523

点赞数

分类专栏：爬虫学习

本文链接：https://blog.csdn.net/Amor_jie/article/details/107193313

版权

爬虫学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

1. Tesseract基础

1.1 Tesseract简介

Tesseract是一个将图像翻译成文字的OCR（光学文字识别），目前由google赞助。它是目前公认最优秀、最准确的开源OCR库，具有很高的识别度，也具有很高的灵活性，可以通过训练识别任何字体

1.2 Tesseract安装

window安装
- 安装完成后，如果想要在命令行中使用Tesseract，需要设置环境变量，在window下吧tesseract.exe所在的路径添加到path环境变量中
Mac安装，有四种方式：
- brew install --with-training-tools tesseract——安装tesseract，同时安装训练工具
- brew install --all-languages tesseract——安装tesseract，同时它还会安装所有语言
- brew install --all-languages --with-training-tools tesseract——安装附加组件
- brew install tesseract——安装tesseract，但是不安装训练工具
Mac安装brew命令
- 终端内输入：/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”，下载过程中需要输入电脑密码

1.3 Tesseract使用

基本命令：tesseract 图片路径文件路径

tesseract demo.jpeg result

1.4 下载语言库

这里可以根据自己的需求来下载所需要的语言库，例如chi_sim.traineddata为简体中文：
下载地址：https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后，需要将它放在tesseract安装路径下的share/tessdata目录下

2. Tesseract在Python中的使用

安装模块：pip install pytesseract
pytesseract模块要与PIL一起使用
实例

import pytesseract
from PIL import Image
# 打开图片
image = Image.open('demo2.jpeg')
# 识别结果，第一个参数是图片，第二个参数是语言
print(pytesseract.image_to_string(image, land='eng'))