想要提取PDF的数据,保存到Excel中。这个功能在WPS中是收费的,且将大量PDF转Excel,手动去输出非常耗时。可以利用Python第三方库pdfplumber快速完成这个功能。
一、pdfplumber库
pdfplumber是一个开源Python工具库,可以方便的获取PDF各种信息,包括文本、表格、图表。主要使用pdfplumber提取PDF中表格数据。
安装命令
pip install pdfplumber
二、代码实现
导入相关包:
import pdfplumber
import pandas as pd
读取PDF文档,获取PDF页数:
pdf = pdfplumber.open('//home//lijiang//享学课堂Python文档//软件常用词汇.pdf')
pages = pdf.pages
提取PDF文档,保存为Excel:
if len(pages) > 1:
tables = []
for each in pages:
table = each.extract_table()
tables.extend(table)
else:
tables = each.extract_table()
data = pd.DataFrame(tables[1:], columns=tables[0])
data.to_excel('//home//lijiang//享学课堂Python文档//软件常用词汇.xlsx', index=False)
三、总结
Python还有不少库可以处理pdf,如PyPDF2、pdfminer,选择pdfplumber的原因在于可以轻松访问PDF的详细信息。且用于提取文本与表格的方法灵活可定制。