最近工作中有把图片中的文字和数字识别出来的需求,但是网上的图片转excel有些直接收费,有些网址每天前几次免费,后续依然要收费。想着趁周末有时间,倒腾一下,如果后续这种需求多的话,可以节省一点成本,也可以提升自己编程的能力。而且在一些爬虫登录时,字符识别自动填写也需要。

一、安装pytesseract库和OCR识别软件
打开cmd,在里面输入
pip install pytesseract
即可成功安装pytesseract库,但是这时直接调用该库会出现如下错误:

从网上搜索原因发现要实现图片识别,要先安装OCR识别软件:tesseract-ocr,有需要的可以到如下官网自行下载:<