【python】python中pdfplumber模块读取PDF文件并写入Excel

活动地址:CSDN21天学习挑战赛

如有错误,欢迎指正,感谢!

**

学习日记 Day11

**

pdf文件是一种便携式文档格式,不受操作系统的限制。python提供了许多模块操作pdf文件,本文是关于pdfplumber模块对PDF文档内容的提取操作,比如文本、形状和表格解析等。

一、pdfplumber模块简单介绍

pdfplumber模块有以下功能:

  • 轻松访问有关每个PDF对象的详细信息;
  • 用于提取文本和表格有更高级别、可自定义的方法;
  • 紧密继承的可视化调试
  • 其它实用功能,例如通过裁剪框过滤对象;

二、 pdfplumber模块安装及导入

使用如下命令安装pdfplumber模块

pip install pdfplumber

在安装pdfplumber模块后,导入模块,运行文件会提示模块pdfplumber不存在,应该是没有安装成功;
看输出的日志,建议更新pip安装命令,就更新了下pip;
更新pip后安装pdfplumber模块,此时再运行导入pdfplumber模块的文件提示typing_extensions这个模块不存在,安装该模块后再运行文件就没有问题了。
在这里插入图片描述

python中使用pdfplumber模块时需要导入

import pdfplumber

三、pdfplumber模块使用

1. 加载PDF

读取PDF文档使用pdfplumber.open()方法,函数声明:

pdfplumber.open(path,password="",laparams={}

参数 password:要加载的pdf受密码保护时,传递该关键字;
参数 laparams:要将布局分析参数设置为pdfplumber.six的布局引擎,传递该参数;

查看pdfplumber.open()函数原型可以发现该函数使用的是pdfplumber.pdf.open()方法。
在这里插入图片描述
pdfplumber.pdf类表示单个pdf,有两个主要的属性:

  • metadata:从pdf的info中获取元数据 键值对 字典。通常包括 "CreationDate”、"ModDate“、”Producer“等;
  • pages:返回一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。
    示例:
import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数

使用时出现的问题及解决方案:pdfplumber打开文件提示文件不存在

2. pdfplumber.Page类使用

pdfplumber.Page类是pdfplumber模块的核心,很多操作围绕该类进行,该类有以下属性:

  • page_number:顺序页码,从第一页1开始,第二页2,依次类推;
  • width:页面的宽度;
  • height:页面的高度
  • objects/chars/lines/rects/curves/figures/images:这些属性都是列表,列表元素是字典,用于嵌入页面上的每个此类对象。

常用的方法如下

  • extract_text():用来提取页面中的文本,将页面中的所有字符对象整理为字符串;
  • extract_words():返回的是所有的单词及其相关信息;
  • extract_tables():提取页面的表格;
  • to_image():用于可视化调试时,返回PaegImage类的一个实例;
  • close():默认情况下,Page对象缓存其部剧和对象信息,以避免重新处理它。在解析大型PDF时,这些缓存的属性可能需要大量内存,可以使用该方法刷新缓存并释放内存
    使用示例:
import pdfplumber

with pdfplumber.open("产品统计表.pdf") as pdf:
    print(pdf)
    print(pdf.metadata)  # 读取文档信息
    print(len(pdf.pages))  # 输出总页数
    # 读取第一页的宽度、高度等信息
    first_page = pdf.pages[0]
    print("页码:",first_page.page_number)
    print("页面大小:%d * %d" %(first_page.width,first_page.height))

    # 读取文本第一页内容
    text = first_page.extract_text()
    print(text)

显示结果:
在这里插入图片描述

3. 读取表格第一页

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # 获取pdf第一页
    table_1 = page_one.extract_table()  # 获取表格
    print(type(table_1))

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = table_1[0]
    print(col1)

    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(table_1[1:])):
        data = table_1[1:][i]
        print(data)
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("test.xls")

生成了test.xls表格如下:
在这里插入图片描述

四、实际使用

1. 提取单个PDF全部页数

import pdfplumber
import xlwt

with pdfplumber.open("产品统计表.pdf") as pdf:
    item = []   # pdf中的所有内容都保存到该列表中

    for page in pdf.pages:
        table = page.extract_table() # 提取表格,返回列表,嵌套列表,是每一行的内容
        for i in table:
            item.append(i)

    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("Sheet1")
    col1 = item[0]
    for i in range(len(col1)):
        worksheet.write(0,i,col1[i])

    for i in range(len(item[1:])):
        data = item[1:][i]
        for j in range(len(col1)):
            worksheet.write(i+1,j,data[j])

    workbook.save("2.xls")

总结:先把pdf表格中的所有内容存储到列表中,然后使用xlwt模块把列表中的内容写入Excel中。

2. 批量提取多个pdf文件

提取多个pdf文件中的表格内容和提取单个文件的表格类似,不同在于要遍历多个pdf文件。
使用示例:

from tkinter import filedialog
import pdfplumber
import xlwt
import os

# 获取文件下所有pdf文件路径
file_dir = os.getcwd()
file_list = []
for files in os.walk(file_dir):
    for file in files[2]:
        if file.split(".")[1] == "pdf" or file.split(".")[1] == "PDF":
            file_list.append(file_dir + "\\" + file)

# 把所有pdf文件的所有页数据存在一个临时列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            if text is not None:
                for i in text:
                    item.append(i)

# 创建表格对象
workbook = xlwt.Workbook(encoding="utf-8")
# 创建sheet表
worksheet = workbook.add_sheet("Sheet1")
# 自定义列明
col1 = item[0]
# 把列名写入到表单中的第一行
for i in range(len(col1)):
    worksheet.write(0,i,col1[i])
# 将剩下的数据写入到表单中
for i in range(len(item[1:])):
    data = item[1:][i]
    for j in range(len(col1)):
        worksheet.write(i+1,j,data[j])

# 保存文件
workbook.save("test2.xls")

全文参考:
https://blog.csdn.net/yuan2019035055/article/details/125243424

### 回答1: 可以使用 Python 的 PyPDF2 库来读取 PDF 文件。安装方法: ``` pip install pypdf2 ``` 然后,可以使用以下代码来读取 PDF 文件将其转换为文本: ```python import PyPDF2 # 打开 PDF 文件 with open('example.pdf', 'rb') as file: # 创建 PDF 读取器 reader = PyPDF2.PdfFileReader(file) # 读取 PDF 的第一页 page = reader.getPage(0) # 将第一页转换为文本 text = page.extractText() print(text) ``` 要将文本写入 SQL Server 数据库,可以使用 Python 的 pyodbc 库。安装方法: ``` pip install pyodbc ``` 然后,可以使用以下代码连接到 SQL Server 数据库将文本写入数据库: ```python import pyodbc # 连接到 SQL Server 数据库 cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};' 'SERVER=server_name;' 'DATABASE=database_name;' 'UID=user_id;' 'PWD=password') # 创建光标 cursor = cnxn.cursor() # 写入文本 query = "INSERT INTO table_name (column_name) VALUES (?)" cursor.execute(query, text) # 提交事务 cnxn.commit() # 关闭连接 cnxn.close() ``` 请注意,上述代码是一个示例,需要根据实际情况进行修改。例如,需要替换 `server_name`、`database_name`、`user_id` 和 `password` 等参数。 ### 回答2: Python读取PDF文件将其写入SQL Server可以通过以下步骤完成: 1. 首先,需要安装合适的Python库,比如pdfminer库用于解析PDF文件、pyodbc库用于连接SQL Server数据库。 2. 使用pdfminer库的PDFParser和PDFDocument类,打开解析PDF文件。可以使用with语句来确保资源的正确释放。 3. 遍历PDF文件的每一页,使用PDFPage对象的get_contents()方法获取每一页的文本内容。 4. 将获取的文本内容写入SQL Server数据库。首先,使用pyodbc库设置数据库连接字符串,包括服务器名称、数据库名称和登录凭据等。然后使用pyodbc库的connect()函数连接到数据库。接下来,创建一个游标对象,使用游标对象的execute()方法执行SQL语句将文本内容插入数据库。最后,使用commit()方法提交更改关闭游标和数据库连接。 5. 循环遍历所有页面写入数据库后,可以关闭PDF文件。 下面是一段示例代码,实现了上述步骤: ```python import pdfminer import pyodbc # 设置数据库连接字符串 connection_string = 'DRIVER={SQL Server};SERVER=ServerName;DATABASE=DatabaseName;UID=Username;PWD=Password' # 打开PDF文件解析 with open('filename.pdf', 'rb') as file: parser = pdfminer.PDFParser(file) document = pdfminer.PDFDocument(parser) # 连接到数据库 connection = pyodbc.connect(connection_string) cursor = connection.cursor() # 遍历PDF文件的每一页 for page in pdfminer.PDFPage.create_pages(document): contents = page.get_contents() # 将文本内容写入数据库 cursor.execute('INSERT INTO YourTable (Content) VALUES (?)', (contents,)) # 提交更改关闭连接 connection.commit() cursor.close() connection.close() # 关闭PDF文件 file.close() ``` 请注意,以上示例代码中的具体细节可能需要根据实际情况进行调整,比如数据库表的名称和字段。另外,还需要确保已正确安装所需的Python库和相关依赖。 ### 回答3: Python可以通过使用包如pdfminer、PyPDF2或pdfplumber读取PDF文件的内容。以下是使用pdfminer包的示例代码: ```python import pdfminer from pdfminer.high_level import extract_text # 从PDF文件中提取文本内容 text = extract_text('example.pdf') # 将提取的文本内容写入SQL Server数据库 import pyodbc # 连接到SQL Server数据库 conn = pyodbc.connect('DRIVER={SQL Server};SERVER=localhost;DATABASE=mydatabase;UID=username;PWD=password') # 创建一个游标对象 cursor = conn.cursor() # 执行插入操作将文本内容写入数据库 cursor.execute("INSERT INTO pdf_data (text) VALUES (?)", text) # 提交更改 conn.commit() # 关闭连接 cursor.close() conn.close() ``` 上述代码使用pdfminer包来提取PDF文件中的文本内容,然后使用pyodbc包连接到SQL Server数据库,将提取的文本内容写入数据库表`pdf_data`的`text`列中。在连接SQL Server数据库时,需要提供正确的数据库服务器、数据库名称、用户名和密码。 请注意,在运行前确保已安装相应的Python包,根据实际情况修改连接到SQL Server数据库的参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值