18.python爬虫—Pytesseract

18.1 Tesseract

  • 定义:
    • Tesseract是一个将图像翻译成文字的OCR库(光学文字识别,Optical Character Recognition)
  • 安装:
    • sudo apt-get install tesseract-ocr
  • 在python中调用Tesseract
    • pip install pytesseract

18.1.1 Tesseract处理规范的文字

  • 在终端中:
    • tesseract test.jpg text
  • 在python代码中
    • import pytesseract
    • from PIL import Image
    • image = Image.open(jpg)
    • pytesseract.image_to_string(image)
      前提:windows安装好tesseract-ocr

18.2 实验

In:

pip install pytesseract

out:

Requirement already satisfied: pytesseract in d:\programdata\anaconda3\lib\site-packages (0.3.4)
Requirement already satisfied: Pillow in d:\programdata\anaconda3\lib\site-packages (from pytesseract) (6.2.0)
Note: you may need to restart the kernel to use updated packages.

In:

from PIL import Image
import pytesseract

In:

pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'

In:

img = Image.open("temp01.png")

In:

pytesseract.image_to_string(img)

out:

'Bute: windows22#¢Ftesseract-ocr\n\nIn [1]: pip install pytesseract'
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值