使用gradio创建一个提取pdf、excel中表格数据的demo

使用Gradio创建一个提取pdf、excel中表格数据的demo

在线体验地址 (https://swanhub.co/patch/TabularScan/demo)

大家可以在上面的链接中试用,需求不大也不用自己弄代码了。
后续大家如果有一些代码或功能想快速部署、提供服务,不管是 AI 项目或是 web 项目,也可以直接托管在 swanhub开源社区 上,方便快捷,而且免费

最近需要对pdf、excel文件中的表格进行提取,用于一些分析,所以使用python完成了一个小工具,可以处理上传的pdf、excel文件,将其中所有表格提取出后存入数组输出:

import gradio as gr
import pdfplumber
import os
import openpyxl


def process_pdf(file):
    file_extension = os.path.splitext(file.orig_name)[-1]

    tables = []

    if file_extension == ".pdf":
        with pdfplumber.open(file.orig_name) as pdf:
            for page in pdf.pages:
                table = page.extract_tables()
                tables.append(table)
    elif file_extension == '.xlsx':
        excel = openpyxl.load_workbook(file.orig_name)
        for name in excel.sheetnames:
            sheet = excel[name]

            max_row = sheet.max_row
            max_column = sheet.max_column

            for row in sheet.iter_rows(values_only=True):
                row_data = []
                for cell_value in row:
                    row_data.append(cell_value)  # 将单元格值添加到当前行的数据列表
                tables.append(row_data)  # 将当前行的数据列表添加到主数组

    return tables


iface = gr.Interface(
    fn=process_pdf,
    inputs=gr.inputs.File(type="file"),
    outputs="text",
    title="上传 PDF/Excel 文件",
    description="提取上传文件中的所有表格,并以数组形式输出",
)

iface.launch()

其中使用到了几个库:

  • 提取 pdf 使用到的:pdfplumber
  • 提取 excel 使用到的:openpyxl

两个库的使用方法不难,文档可以直接在github上找到

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沧州刺史

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值