【python】python中pdfplumber模块读取PDF文件并写入Excel

活动地址:CSDN21天学习挑战赛

如有错误,欢迎指正,感谢!

**

学习日记 Day11

**

pdf文件是一种便携式文档格式,不受操作系统的限制。python提供了许多模块操作pdf文件,本文是关于pdfplumber模块对PDF文档内容的提取操作,比如文本、形状和表格解析等。

一、pdfplumber模块简单介绍

pdfplumber模块有以下功能:

  • 轻松访问有关每个PDF对象的详细信息;
  • 用于提取文本和表格有更高级别、可自定义的方法;
  • 紧密继承的可视化调试
  • 其它实用功能,例如通过裁剪框过滤对象;

二、 pdfplumber模块安装及导入

使用如下命令安装pdfplumber模块

pip install pdfplumber

在安装pdfplumber模块后,导入模块,运行文件会提示模块pdfplumber不存在,应该是没有安装成功;
看输出的日志,建议更新pip安装命令,就更新了下pip;
更新pip后安装pdfplumber模块,此时再运行导入pdfplumber模块的文件提示typing_extensions这个模块不存在,安装该模块后再运行文件就没有问题了。
在这里插入图片描述

python中使用pdfplumber模块时需要导入

import pdfplumber

三、pdfplumber模块使用

1. 加载PDF

读取PDF文档使用pdfplumber.open()方法,函数声明:

pdfplumber.open(path,password="",laparams={}

参数 password:要加载的pdf受密码保护时,传递该关键字;
参数 laparams:要将布局分析参数设置为pdfplumber.six的布局引擎,传递该参数;

查看pdfplumber.open()函数原型可以发现该函数使用的是pdfplumber.pdf.open()方法。
在这里插入图片描述
pdfplumber.pdf类表示单个pdf,有两个主要的属性:

  • metadata:从pdf的info中获取元数据 键值对 字典。通常包括 "CreationDate”、"ModDate“、”Producer“等;
  • pages:返回一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。
    示例:
import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数

使用时出现的问题及解决方案:pdfplumber打开文件提示文件不存在

2. pdfplumber.Page类使用

pdfplumber.Page类是pdfplumber模块的核心,很多操作围绕该类进行,该类有以下属性:

  • page_number:顺序页码,从第一页1开始,第二页2,依次类推;
  • width:页面的宽度;
  • height:页面的高度
  • objects/chars/lines/rects/curves/figures/images:这些属性都是列表,列表元素是字典,用于嵌入页面上的每个此类对象。

常用的方法如下

  • extract_text():用来提取页面中的文本,将页面中的所有字符对象整理为字符串;
  • extract_words():返回的是所有的单词及其相关信息;
  • extract_tables():提取页面的表格;
  • to_image():用于可视化调试时,返回PaegImage类的一个实例;
  • close():默认情况下,Page对象缓存其部剧和对象信息,以避免重新处理它。在解析大型PDF时,这些缓存的属性可能需要大量内存,可以使用该方法刷新缓存并释放内存
    使用示例:
import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数
    # 读取第一页的宽度、高度等信息
    first_page = pdf.pages[0]
    print("页码:",first_page.page_number)
    print("页面大小:%d * %d" %(first_page.width,first_page.height))

    # 读取文本第一页内容
    text = first_page.extract_text()
    print(text)

显示结果:
在这里插入图片描述

3. 读取表格第一页

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # 获取pdf第一页
    table_1 = page_one.extract_table()  # 获取表格
    print(type(table_1))

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = table_1[0]
    print(col1)

    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(table_1[1:])):
        data = table_1[1:][i]
        print(data)
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("test.xls")

生成了test.xls表格如下:
在这里插入图片描述

四、实际使用

1. 提取单个PDF全部页数

import pdfplumber
import xlwt

with pdfplumber.open("产品统计表.pdf") as pdf:
    item = []   # pdf中的所有内容都保存到该列表中

    for page in pdf.pages:
        table = page.extract_table() # 提取表格,返回列表,嵌套列表,是每一行的内容
        for i in table:
            item.append(i)

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = item[0]
    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(item[1:])):
        data = item[1:][i]
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("2.xls")

总结:先把pdf表格中的所有内容存储到列表中,然后使用xlwt模块把列表中的内容写入Excel中。

2. 批量提取多个pdf文件

提取多个pdf文件中的表格内容和提取单个文件的表格类似,不同在于要遍历多个pdf文件。
使用示例:

from tkinter import filedialog
import pdfplumber
import xlwt
import os

# 获取文件下所有pdf文件路径
file_dir = os.getcwd()
file_list = []
for files in os.walk(file_dir):
    for file in files[2]:
        if file.split(".")[1] == "pdf" or file.split(".")[1] == "PDF":
            file_list.append(file_dir + "\\" + file)

# 把所有pdf文件的所有页数据存在一个临时列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            if text is not None:
                for i in text:
                    item.append(i)

# 创建表格对象
workbook = xlwt.Workbook(encoding="utf-8")
# 创建sheet表
worksheet = workbook.add_sheet("Sheet1")
# 自定义列明
col1 = item[0]
# 把列名写入到表单中的第一行
for i in range(len(col1)):
    worksheet.write(0,i,col1[i])
# 将剩下的数据写入到表单中
for i in range(len(item[1:])):
    data = item[1:][i]
    for j in range(len(col1)):
        worksheet.write(i+1,j,data[j])

# 保存文件
workbook.save("test2.xls")

全文参考:
https://blog.csdn.net/yuan2019035055/article/details/125243424

  • 5
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值