python爬虫学习:tesseract之实现图片里文字的识别

在这里插入图片描述

1. Tesseract基础

1.1 Tesseract简介

Tesseract是一个将图像翻译成文字的OCR(光学文字识别),目前由google赞助。它是目前公认最优秀、最准确的开源OCR库,具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体

1.2 Tesseract安装

  • window安装
    • 安装完成后,如果想要在命令行中使用Tesseract,需要设置环境变量,在window下吧tesseract.exe所在的路径添加到path环境变量中
  • Mac安装,有四种方式:
    • brew install --with-training-tools tesseract——安装tesseract, 同时安装训练工具
    • brew install --all-languages tesseract——安装tesseract,同时它还会安装所有语言
    • brew install --all-languages --with-training-tools tesseract——安装附加组件
    • brew install tesseract——安装tesseract,但是不安装训练工具
  • Mac安装brew命令
    • 终端内输入:/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”,下载过程中需要输入电脑密码

1.3 Tesseract使用

基本命令:tesseract 图片路径 文件路径

tesseract demo.jpeg result

1.4 下载语言库

这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文:
下载地址:https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后,需要将它放在tesseract安装路径下的share/tessdata目录下


2. Tesseract在Python中的使用

  • 安装模块:pip install pytesseract
  • pytesseract模块要与PIL一起使用
  • 实例
import pytesseract
from PIL import Image
# 打开图片
image = Image.open('demo2.jpeg')
# 识别结果,第一个参数是图片,第二个参数是语言
print(pytesseract.image_to_string(image, land='eng'))
2V¥K
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值