图片提取文字

先上一张效果图


代码:

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('timg.jpg'),lang='chi_sim')
print(text)
 
 

具体实现:

1.使用的库有pillow(PIL的代替,PIL年久失修),pytesser,Tesseract OCR引擎。
pillow,pytesser都是python库,可以通过pip下载。
pip install pytesseract
pip install pillow
 
 
Tesseract OCR引擎是一个exe文件,下载后需要安装,配置环境变量。

下载地址:http://download.csdn.net/download/l_lipo/10202168
包含了Tesseract OCR和需要的中文语音包。
下载后安装,path中配置环境变量,D:\Learning Programs\Tesseract-OCR
配置TESSDATA_PREFIX变量,指向D:\Learning Programs\Tesseract-OCR\tessdata
把语言包放到tessdata文件夹中。
修改pytesser库中pytesseract.py文件,地址指向引擎执行文件路径。
import os
import sys
import subprocess
import tempfile
import shlex


# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'D:/Learning Programs/Tesseract-OCR/tesseract.exe'

 
 

至此,准备工作就做完了。


2.操作:

将图片放在与py文件平齐的目录中,写代码。运行即可

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('timg.jpg'),lang='chi_sim')
print(text)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值