两行代码搞定python OCR图像文字识别

目前OCR主要依赖几个低层库,本博客采用Tesseract,Tesseract是由Google维护的开源OCR。本博客在windows环境进行,linux环境同理。

1、安装Tesseract:

windows下Tesseract的安装比较简单,下载exe然后一直next下去就行了。但是由于要做中文的识别,所以一定在安装的时候要勾选相应的中文库,这个安装时是默认不下载的。

2、安装pytesseract

pytesseract是对tesseract做的一层Python API封装。

pip3 install pytesseract

3、编写py代码:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'D://ocr/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('D://ocr/qximg/test1.png'),lang='chi_sim')

首先导入相应的库。第一行代码从正确的位置引入tesseract运行文件。第二行代码选择要识别的图片,设置简体中文识别。text即为图片中中文的内容。

  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值