Python笔记九:用三方库pdfplumber批量提取PDF表格并存入Excel

想要提取PDF的数据,保存到Excel中。这个功能在WPS中是收费的,且将大量PDF转Excel,手动去输出非常耗时。可以利用Python第三方库pdfplumber快速完成这个功能。

一、pdfplumber库

pdfplumber是一个开源Python工具库,可以方便的获取PDF各种信息,包括文本、表格、图表。主要使用pdfplumber提取PDF中表格数据。

安装命令

pip install pdfplumber

二、代码实现

导入相关包:

import pdfplumber
import pandas as pd

读取PDF文档,获取PDF页数:

pdf = pdfplumber.open('//home//lijiang//享学课堂Python文档//软件常用词汇.pdf')
pages = pdf.pages

提取PDF文档,保存为Excel:

if len(pages) > 1:
    tables = []
    for each in pages:
        table = each.extract_table()
        tables.extend(table)
else:
    tables = each.extract_table()

data = pd.DataFrame(tables[1:], columns=tables[0])
data.to_excel('//home//lijiang//享学课堂Python文档//软件常用词汇.xlsx', index=False)

三、总结

Python还有不少库可以处理pdf,如PyPDF2、pdfminer,选择pdfplumber的原因在于可以轻松访问PDF的详细信息。且用于提取文本与表格的方法灵活可定制。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
宾馆客房管理系统的数据流DFD)和实体-关系(E-R)是用于描述系统的数据流和数据结构的工具。下面是对宾馆客房管理系统的DFD和E-R的简要介绍: 数据流DFD)是一种形化的工具,用于描述系统中数据的流动和处理过程。在宾馆客房管理系统中,DFD可以包括以下几个主要组成部分: 1. 上层数据流(Context Diagram):该显示了宾馆客房管理系统与外部实体之间的交互,例如顾客、前台、房间清洁人员等。它展示了系统的整体概览,不涉及具体的内部处理过程。 2. 一级数据流(Level 1 DFD):该展示了宾馆客房管理系统的主要功能模块和数据流之间的关系。例如,可以包括预订房间、入住登记、退房结算等功能模块,并显示它们之间的数据流动。 3. 二级数据流(Level 2 DFD):在一级数据流的基础上,进一步展开了各个功能模块的内部处理过程和数据流动。例如,可以展示预订房间模块中的验证客房可用性、生成订单等具体步骤。 实体-关系(E-R)是一种用于描述系统中实体、属性和它们之间关系的形化工具。在宾馆客房管理系统中,E-R可以包括以下几个主要组成部分: 1. 实体(Entity):例如顾客、房间、订单等,它们是系统中需要存储和管理的主要对象。 2. 属性(Attribute):描述实体的特征或属性,例如顾客的姓名、房间的类型、订单的状态等。 3. 关系(Relationship):描述实体之间的关系,例如顾客与订单之间的关系、房间与订单之间的关系等。 通过E-R,可以清晰地了解宾馆客房管理系统中各个实体之间的关系以及它们的属性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

m0_64880493_江哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值