Python办公自动化:提取PDF表格数据
- 需求解读
- 算法设计
- 扩展库使用
- 代码实现
- 代码调优
# 程序目标:把pdf中的表格提取到Excel中
#引入扩展库
import xlwings as xw
import pdfplumber as ppb
with ppb.open('2020销年1月电暖器销年报告总结.pdf') as pdf:
# 创建一个工作簿对象
wb=xw.Book()
#sheets表格的序号
i=0
#对PDF的每一页进行循环遍历
for page in pdf.pages:
# 获取一个工作表对象,用来保存pdf中
#的其中一个表格
sht=wb.sheets[0]
#把某一页pdf中的table提取出来,存储到sheet中,每个Table存储为
sht.range('a1').value=page.extract_table()
wb.sheets.add(name=str(i))
i+=1
#保存工作簿文件到磁盘文件中
wb.save('2020.1.xlsx')
wb.close()