在前几篇文章“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”、“小叮当Python人工智能篇:tesseract4.0引擎语言包的配置!”中已为大家介绍了如何安装下载图文识别开源引擎以及所需的安装包的配置。
在tesseract4.0引擎及语言包已配置好的前提下,我们就用一句代码通过python来实现人工智能中的图文识别。
国产西游记动画,不仅承载着我们美好的童年记忆,而且蕴涵着简单而有深刻的人生哲理。看过西游记的人,想必都熟悉这句话,“西天取经不容易,容易干不成大业绩~”。
同样在python中也是这样,想要一句代码实现图文识别,想要一劳永逸,我们得把准备工作给做充分。仅仅安装好图文识别tesseract4.0引擎及相应的语言包是还不够的。
我们还需安装两个库pytesseract和PIL。
pytesseract库的安装
Step1.使用pip命令安装:pip install pytesseract
Step2.配置pytesseract.py关联安装好的tesseract4.0引擎
以pycharm为例,我们新建一个python文件,名为ocr表示识别。
我们用import导入pytesseract,编写代码“text=pytesseract.image_tor_string()”将鼠标定位在"image_to_string( )"字样处,用“ctrl+左键”进入pytesseract.py文件。
进入pytesseract.py后我们发现,此时光标定位在了image_to_string( )函数定义。
我们滑动右侧的滑动条,至pytesseract.py的开头部分第26行,找到“tesseract_cmd”字样。
将“tesseract_cmd”的值改为我们的tesseract引擎执行路径“D:\Program Files (x86)\Tesseract-OCR\tesseract.exe”。
当我们修改值时会出现,编辑提示界面,我们在默认选项下点击确定即可。
点击确定后,即可看到tesseract_cmd的值已经被我们成功修改。
PIL库的安装
PIL库的安装较为简单,我们直接使用命令:pip install pillow即可安装。
虽然小叮当这里网速不太好,但只要有耐心,稍等一会儿也是可以看到成功的曙光的~
一句代码实现图文识别
Step1.首先我们先准备好一张带字的测试的图片。如下图“态度决定一切,成事在于认真”。
Step2.一句代码实现
可见,除了库导入和打印语句以外,我们就自己写了一句代码(如上图红框所示),便实现了对图片中文字的识别。是不是很开心呀~