Python 中文文本识别+图片表格识别

from PIL import ImagePytesseract-windows安装

Tesseract的github地址:tesseract-ocr/tesseract

Tesseract的安装:

(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: Index of /tesseract

下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path,添加下面的安装路径:

C:\Program Files\Tesseract-OCR

安装完成之后,直接cmd输入:

命令:
tesseract -v
输出如下,即代表成功:
tesseract 4.0.0-beta.1-108-gf291

可能遇到错误1:

windows下使用pytesseract模块进行文本识别出现错误如下:

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path

解决:代码中加入如下行:

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" 

(引号中是tesseract.exe的路径,如果未安装,请参照以下步骤)

PS:你可能会查到修改pytesseract.py中的tesseract_cmd,然而并没有什么卵用,应为\t在win10下不同的IDE会出现不同的抽搐,我用的是Jupyter。

可能遇到的错误2:

好不容易不报路径错误了,结果发现没有文中字库:

'F\n\n \n\n \n\n \n\n \n\nae\nAma PRB tks ; arte\ng kn)\nR1065°7925000~ ae\n6108 8 HERTICH A HIED 56. 825\nK1120+557 eS\n1) 25\nK1033+938— ay\nS304 28 CMR MAIR 30. 567\nk1094+905 ee'

安装:

 

.traineddata文件复制到 **\Tesseract-OCR\tessdata路径下。

from  PIL import  Image
import pytesseract
import  cv2 as cv
img = Image.open('E:/test.png')
pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
s = pytesseract.image_to_string(img, lang='chi_sim')

 

 

终于,通过其他方式搞定表格识别了,开始撸小程序的前端。

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值