Python笔记九：用三方库pdfplumber批量提取PDF表格并存入Excel

m0_64880493_江哥

已于 2023-09-09 20:29:00 修改

阅读量1k

点赞数 2

文章标签： pdf excel

于 2023-09-02 15:40:53 首次发布

本文链接：https://blog.csdn.net/m0_64880493/article/details/132638432

版权

想要提取PDF的数据，保存到Excel中。这个功能在WPS中是收费的，且将大量PDF转Excel，手动去输出非常耗时。可以利用Python第三方库pdfplumber快速完成这个功能。

一、pdfplumber库

pdfplumber是一个开源Python工具库，可以方便的获取PDF各种信息，包括文本、表格、图表。主要使用pdfplumber提取PDF中表格数据。

安装命令

pip install pdfplumber

二、代码实现

导入相关包：

import pdfplumber
import pandas as pd

读取PDF文档，获取PDF页数：

pdf = pdfplumber.open('//home//lijiang//享学课堂Python文档//软件常用词汇.pdf')
pages = pdf.pages

提取PDF文档，保存为Excel：

if len(pages) > 1:
    tables = []
    for each in pages:
        table = each.extract_table()
        tables.extend(table)
else:
    tables = each.extract_table()

data = pd.DataFrame(tables[1:], columns=tables[0])
data.to_excel('//home//lijiang//享学课堂Python文档//软件常用词汇.xlsx', index=False)

三、总结

Python还有不少库可以处理pdf,如PyPDF2、pdfminer，选择pdfplumber的原因在于可以轻松访问PDF的详细信息。且用于提取文本与表格的方法灵活可定制。

优惠劵

m0_64880493_江哥

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python笔记九：用三方库pdfplumber批量提取PDF表格并存入Excel

Python还有不少库可以处理pdf,如PyPDF2、pdfminer，选择pdfplumber的原因在于可以轻松访问PDF的详细信息。且用于提取文本与表格的方法灵活可定制。
复制链接

扫一扫