python图片表格提取算法_python提取图片内容并转换成对应表格的markdown代码

本教程介绍如何使用Python结合PIL和pytesseract库识别图片中的表格内容,并将其转换为Markdown格式。首先安装PIL和pytesseract,然后安装Tesseract-OCR并配置环境。通过pytesseract.image_to_string()函数获取表格文字,再进行数据处理,生成Markdown表格。最终,程序将识别出的表格内容输出为Markdown文本。
摘要由CSDN通过智能技术生成

本节我们将介绍使用python识别一张图片中的内容,并试着得到一张表格,当然并不是类似于Excel的表格,而是该表格的markdown代码。

注:原创内容,转载请标明出处!

相关工具的安装

本次实验环境:win10,Pycharm2019.3。

安装相关库既可以使用命令行,也可以使用Pycharm自带的工具。

打开cmd命令行或者powershell。

首先安装PIL:

pip install Pillow

L3Byb3h5L2h0dHBzL2ltZzIwMTguY25ibG9ncy5jb20vYmxvZy8xOTUwODQ2LzIwMjAwMi8xOTUwODQ2LTIwMjAwMjI2MTYxODA0NTg1LTIwODcyODgzNjIucG5n.jpg

这是已经安装好PIL的示意图。

之后,安装pytesseract:

pip install pytesseract

L3Byb3h5L2h0dHBzL2ltZzIwMTguY25ibG9ncy5jb20vYmxvZy8xOTUwODQ2LzIwMjAwMi8xOTUwODQ2LTIwMjAwMjI2MTYxOTEwOTM3LTQ3MDU3NTM5NS5wbmc=.jpg

这是已经安装好pytesseract的示意图。

接下来,安装Tesseract-OCR,注意对应系统。

环境配置,输入

tesseract

tesseract -v

L3Byb3h5L2h0dHBzL2ltZzIwMTguY25ibG9ncy5jb20vYmxvZy8xOTUwODQ2LzIwMjAwMi8xOTUwODQ2LTIwMjAwMjI2MTYyNDM4OTUzLTE3NjE5NTY2NS5wbmc=.jpg

如果正常输出,表示配置成功了(我在实际操作时,安装完成后自动配置了系统变量),如果没有,找到之前安装的路径:

例如:

L3Byb3h5L2h0dHBzL2ltZzIwMTguY25ibG9ncy5jb20vYmxvZy8xOTUwODQ2LzIwMjAwMi8xOTUwODQ2LTIwMjAwMjI2MTYyNTUyODI0LTEyMTc5NjQxLnBuZw==.jpg

G:\Program Files (x86)\Tesseract-OCR

将该路径添加到系统变量中

L3Byb3h5L2h0dHBzL2ltZzIwMTguY25ibG9ncy5jb20vYmxvZy8xOTUwODQ2LzIwMjAwMi8xOTUwODQ2LTIwMjAwMjI2MTYyNzIzNjUwLTgxNzUwODIyLnBuZw==.jpg

如果你想做英文之外的识别,Tesseract-OCR是没有带其他语言包的,你可以去下载其他语言包

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值