【Python实际使用】Python提取pdf中的表格数据输出到excel(含代码实例)

最新推荐文章于 2024-07-05 18:32:27 发布

夜七天

最新推荐文章于 2024-07-05 18:32:27 发布

阅读量813

点赞数

分类专栏： Python 文章标签： python pdf excel

本文链接：https://blog.csdn.net/q664243624/article/details/132202939

版权

Python 专栏收录该内容

43 篇文章 1 订阅

订阅专栏

前两天有朋友问我，你能不能帮我把pdf中的表格数据抓出来，输出到excel中，我说我试试。

最近看资料发现python有很多库都可以完成pdf中的表格数据抓取，选择其中一种尝试：pdfplumber。

一、简单介绍

在使用之前我们简单了解一下：

1.pdfplumber是什么？

pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等对象的具体信息，而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

2.pdfplumber和pdfminer比优势在哪？

二者都可以获取到每个字符、矩形框、线等对象的具体信息，但是pdfplumber在pdfminer的基础上进行了封装和处理，使得到的对象更易于使用，对用户更友好。
二者都能对文本解析，但是pdfminer输出的文本在布局上可能与原文差别比较大，但是pdfplumber抽取出的文本与原文可以有更高的一致性。
pdfplumber实现了表格抽取逻辑，基于最基本的字符、线框等对象的位置信息，定位、识别pdf文档中的表格

二.实际使用

安装 pdfplumber

pip install pdfplumber

实现

# 导入必要的库
import pdfplumber
import pandas as pd

def read_pdf_to_excel(read_path, save_path, header_index):
    # 读取文件内容，如果有多个表格，会读取到多个表格页
    pdf_2020 = pdfplumber.open(read_path)
    # 创建结果数据集
    result_df = pd.DataFrame()
    for page in pdf_2020.pages:
        # 读取表格内容
        table = page.extract_table()
        # print(table)
        # 进行表格数据格式化
        df_detail = pd.DataFrame(table[(header_index+1):], columns=table[header_index])
        # 合并表格数据到结果数据集
        result_df = pd.concat([df_detail, result_df], ignore_index=True)
    result_df.to_excel(excel_writer=save_path, index=False)


read_path = r'/***/**.pdf'
save_path = r'/***/**.xlsx'
# 这里的1是申明表格表头的数据下标是几
read_pdf_to_excel(read_path, save_path, 1)