【python】python中pdfplumber模块读取PDF文件并写入Excel

小地瓜重新去华容道工作

已于 2022-09-01 17:11:45 修改

阅读量5.1k

点赞数 5

文章标签： python 开发语言

于 2022-08-12 14:17:49 首次发布

本文链接：https://blog.csdn.net/sinat_41752325/article/details/126303289

版权

python 专栏收录该内容

44 篇文章

订阅专栏

活动地址：CSDN21天学习挑战赛

如有错误，欢迎指正，感谢！

学习日记 Day11

pdf文件是一种便携式文档格式，不受操作系统的限制。python提供了许多模块操作pdf文件，本文是关于pdfplumber模块对PDF文档内容的提取操作，比如文本、形状和表格解析等。

一、pdfplumber模块简单介绍

pdfplumber模块有以下功能：

轻松访问有关每个PDF对象的详细信息；
用于提取文本和表格有更高级别、可自定义的方法；
紧密继承的可视化调试
其它实用功能，例如通过裁剪框过滤对象；

二、 pdfplumber模块安装及导入

使用如下命令安装pdfplumber模块

pip install pdfplumber

在安装pdfplumber模块后，导入模块，运行文件会提示模块pdfplumber不存在，应该是没有安装成功；
看输出的日志，建议更新pip安装命令，就更新了下pip；
更新pip后安装pdfplumber模块，此时再运行导入pdfplumber模块的文件提示typing_extensions这个模块不存在，安装该模块后再运行文件就没有问题了。

python中使用pdfplumber模块时需要导入

import pdfplumber

三、pdfplumber模块使用

1. 加载PDF

读取PDF文档使用pdfplumber.open()方法，函数声明：

pdfplumber.open(path,password="",laparams={}

参数 password：要加载的pdf受密码保护时，传递该关键字；
参数 laparams：要将布局分析参数设置为pdfplumber.six的布局引擎，传递该参数；

查看pdfplumber.open()函数原型可以发现该函数使用的是pdfplumber.pdf.open()方法。
在这里插入图片描述
pdfplumber.pdf类表示单个pdf，有两个主要的属性：

metadata：从pdf的info中获取元数据键值对字典。通常包括 "CreationDate”、"ModDate“、”Producer“等；
pages：返回一个包含pdfplumber.Page实例的列表，每一个实例代表pdf每一页的信息。
示例：

import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数

使用时出现的问题及解决方案：pdfplumber打开文件提示文件不存在。

2. pdfplumber.Page类使用

pdfplumber.Page类是pdfplumber模块的核心，很多操作围绕该类进行，该类有以下属性：

page_number：顺序页码，从第一页1开始，第二页2，依次类推；
width：页面的宽度；
height：页面的高度
objects/chars/lines/rects/curves/figures/images：这些属性都是列表，列表元素是字典，用于嵌入页面上的每个此类对象。

常用的方法如下

extract_text()：用来提取页面中的文本，将页面中的所有字符对象整理为字符串；
extract_words()：返回的是所有的单词及其相关信息；
extract_tables()：提取页面的表格；
to_image()：用于可视化调试时，返回PaegImage类的一个实例；
close()：默认情况下，Page对象缓存其部剧和对象信息，以避免重新处理它。在解析大型PDF时，这些缓存的属性可能需要大量内存，可以使用该方法刷新缓存并释放内存
使用示例：

import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数
    # 读取第一页的宽度、高度等信息
    first_page = pdf.pages[0]
    print("页码：",first_page.page_number)
    print("页面大小：%d * %d" %(first_page.width,first_page.height))

    # 读取文本第一页内容
    text = first_page.extract_text()
    print(text)

显示结果：
在这里插入图片描述

3. 读取表格第一页

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # 获取pdf第一页
    table_1 = page_one.extract_table()  # 获取表格
    print(type(table_1))

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = table_1[0]
    print(col1)

    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(table_1[1:])):
        data = table_1[1:][i]
        print(data)
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("test.xls")

生成了test.xls表格如下：
在这里插入图片描述

四、实际使用

1. 提取单个PDF全部页数

import pdfplumber
import xlwt

with pdfplumber.open("产品统计表.pdf") as pdf:
    item = []   # pdf中的所有内容都保存到该列表中

    for page in pdf.pages:
        table = page.extract_table() # 提取表格，返回列表，嵌套列表，是每一行的内容
        for i in table:
            item.append(i)

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = item[0]
    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(item[1:])):
        data = item[1:][i]
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("2.xls")

总结：先把pdf表格中的所有内容存储到列表中，然后使用xlwt模块把列表中的内容写入Excel中。

2. 批量提取多个pdf文件

提取多个pdf文件中的表格内容和提取单个文件的表格类似，不同在于要遍历多个pdf文件。
使用示例：

from tkinter import filedialog
import pdfplumber
import xlwt
import os

# 获取文件下所有pdf文件路径
file_dir = os.getcwd()
file_list = []
for files in os.walk(file_dir):
    for file in files[2]:
        if file.split(".")[1] == "pdf" or file.split(".")[1] == "PDF":
            file_list.append(file_dir + "\\" + file)

# 把所有pdf文件的所有页数据存在一个临时列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            if text is not None:
                for i in text:
                    item.append(i)

# 创建表格对象
workbook = xlwt.Workbook(encoding="utf-8")
# 创建sheet表
worksheet = workbook.add_sheet("Sheet1")
# 自定义列明
col1 = item[0]
# 把列名写入到表单中的第一行
for i in range(len(col1)):
    worksheet.write(0,i,col1[i])
# 将剩下的数据写入到表单中
for i in range(len(item[1:])):
    data = item[1:][i]
    for j in range(len(col1)):
        worksheet.write(i+1,j,data[j])

# 保存文件
workbook.save("test2.xls")