本节我们将介绍使用python识别一张图片中的内容,并试着得到一张表格,当然并不是类似于Excel的表格,而是该表格的markdown代码。
注:原创内容,转载请标明出处!
相关工具的安装
本次实验环境:win10,Pycharm2019.3。
安装相关库既可以使用命令行,也可以使用Pycharm自带的工具。
打开cmd命令行或者powershell。
首先安装PIL:
pip install Pillow
这是已经安装好PIL的示意图。
之后,安装pytesseract:
pip install pytesseract
这是已经安装好pytesseract的示意图。
接下来,安装Tesseract-OCR,注意对应系统。
环境配置,输入
tesseract
tesseract -v