活动地址:CSDN21天学习挑战赛
如有错误,欢迎指正,感谢!
目录
**
学习日记 Day11
**
pdf文件是一种便携式文档格式,不受操作系统的限制。python提供了许多模块操作pdf文件,本文是关于pdfplumber模块对PDF文档内容的提取操作,比如文本、形状和表格解析等。
一、pdfplumber模块简单介绍
pdfplumber模块有以下功能:
- 轻松访问有关每个PDF对象的详细信息;
- 用于提取文本和表格有更高级别、可自定义的方法;
- 紧密继承的可视化调试
- 其它实用功能,例如通过裁剪框过滤对象;
二、 pdfplumber模块安装及导入
使用如下命令安装pdfplumber模块
pip install pdfplumber
在安装pdfplumber模块后,导入模块,运行文件会提示模块pdfplumber不存在,应该是没有安装成功;
看输出的日志,建议更新pip安装命令,就更新了下pip;
更新pip后安装pdfplumber模块,此时再运行导入pdfplumber模块的文件提示typing_extensions这个模块不存在,安装该模块后再运行文件就没有问题了。
python中使用pdfplumber模块时需要导入
import pdfplumber
三、pdfplumber模块使用
1. 加载PDF
读取PDF文档使用pdfplumber.open()方法,函数声明:
pdfplumber.open(path,password="",laparams={}
参数 password:要加载的pdf受密码保护时,传递该关键字;
参数 laparams:要将布局分析参数设置为pdfplumber.six的布局引擎,传递该参数;
查看pdfplumber.open()函数原型可以发现该函数使用的是pdfplumber.pdf.open()方法。
pdfplumber.pdf类表示单个pdf,有两个主要的属性:
- metadata:从pdf的info中获取元数据 键值对 字典。通常包括 "CreationDate”、"ModDate“、”Producer“等;
- pages:返回一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。
示例:
import pdfplumber
with pdfplumber.open("产品统计表.pdf") as pdf:
print(pdf)
print(pdf.metadata) # 读取文档信息
print(len(pdf.pages)) # 输出总页数
使用时出现的问题及解决方案:pdfplumber打开文件提示文件不存在。
2. pdfplumber.Page类使用
pdfplumber.Page类是pdfplumber模块的核心,很多操作围绕该类进行,该类有以下属性:
- page_number:顺序页码,从第一页1开始,第二页2,依次类推;
- width:页面的宽度;
- height:页面的高度
- objects/chars/lines/rects/curves/figures/images:这些属性都是列表,列表元素是字典,用于嵌入页面上的每个此类对象。
常用的方法如下
- extract_text():用来提取页面中的文本,将页面中的所有字符对象整理为字符串;
- extract_words():返回的是所有的单词及其相关信息;
- extract_tables():提取页面的表格;
- to_image():用于可视化调试时,返回PaegImage类的一个实例;
- close():默认情况下,Page对象缓存其部剧和对象信息,以避免重新处理它。在解析大型PDF时,这些缓存的属性可能需要大量内存,可以使用该方法刷新缓存并释放内存
使用示例:
import pdfplumber
with pdfplumber.open("产品统计表.pdf") as pdf:
print(pdf)
print(pdf.metadata) # 读取文档信息
print(len(pdf.pages)) # 输出总页数
# 读取第一页的宽度、高度等信息
first_page = pdf.pages[0]
print("页码:",first_page.page_number)
print("页面大小:%d * %d" %(first_page.width,first_page.height))
# 读取文本第一页内容
text = first_page.extract_text()
print(text)
显示结果:
3. 读取表格第一页
import pdfplumber
import xlwt
with pdfplumber.open("1.pdf") as pdf:
page_one = pdf.pages[0] # 获取pdf第一页
table_1 = page_one.extract_table() # 获取表格
print(type(table_1))
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet("Sheet1")
col1 = table_1[0]
print(col1)
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
for i in range(len(table_1[1:])):
data = table_1[1:][i]
print(data)
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
workbook.save("test.xls")
生成了test.xls表格如下:
四、实际使用
1. 提取单个PDF全部页数
import pdfplumber
import xlwt
with pdfplumber.open("产品统计表.pdf") as pdf:
item = [] # pdf中的所有内容都保存到该列表中
for page in pdf.pages:
table = page.extract_table() # 提取表格,返回列表,嵌套列表,是每一行的内容
for i in table:
item.append(i)
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet("Sheet1")
col1 = item[0]
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
for i in range(len(item[1:])):
data = item[1:][i]
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
workbook.save("2.xls")
总结:先把pdf表格中的所有内容存储到列表中,然后使用xlwt模块把列表中的内容写入Excel中。
2. 批量提取多个pdf文件
提取多个pdf文件中的表格内容和提取单个文件的表格类似,不同在于要遍历多个pdf文件。
使用示例:
from tkinter import filedialog
import pdfplumber
import xlwt
import os
# 获取文件下所有pdf文件路径
file_dir = os.getcwd()
file_list = []
for files in os.walk(file_dir):
for file in files[2]:
if file.split(".")[1] == "pdf" or file.split(".")[1] == "PDF":
file_list.append(file_dir + "\\" + file)
# 把所有pdf文件的所有页数据存在一个临时列表中
item = []
for file_path in file_list:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_table()
if text is not None:
for i in text:
item.append(i)
# 创建表格对象
workbook = xlwt.Workbook(encoding="utf-8")
# 创建sheet表
worksheet = workbook.add_sheet("Sheet1")
# 自定义列明
col1 = item[0]
# 把列名写入到表单中的第一行
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
# 将剩下的数据写入到表单中
for i in range(len(item[1:])):
data = item[1:][i]
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
# 保存文件
workbook.save("test2.xls")
全文参考:
https://blog.csdn.net/yuan2019035055/article/details/125243424