Python利用pdfplumber循环读取每一页并把表格写入Excel中

最新推荐文章于 2023-08-22 13:59:27 发布

栽树先生～

最新推荐文章于 2023-08-22 13:59:27 发布

阅读量1.3k

点赞数

分类专栏： Python 文章标签： excel

本文链接：https://blog.csdn.net/qq_43143025/article/details/130439193

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

好的，以下是一个Python程序使用pdfplumber模块循环读取每一页PDF并将表格写入Excel表格中的示例：

import pdfplumber
import openpyxl

# 读取PDF文件和创建Excel文件对象
pdf = pdfplumber.open('example.pdf')
wb = openpyxl.Workbook()
ws = wb.active

# 循环遍历每一页
for page in pdf.pages:
    # 获取当前页面的所有表格
    tables = page.extract_tables()

    # 循环遍历每个表格
    for table in tables:
        # 将表格数据写入Excel中
        for row in table:
            ws.append(row)

# 将Excel保存到磁盘上
wb.save('example.xlsx')

# 关闭PDF文件
pdf.close()

在这个示例代码中，我们使用了`pdfplumber`模块打开了一个名为`example.pdf`的PDF文件，并使用`openpyxl`模块创建了一个新的Excel文件。接下来，我们循环遍历每一页，并提取每页的所有表格数据。最后，我们将表格数据写入Excel中，然后将Excel保存到磁盘上。

需要注意的是，该示例程序仅适用于表格数据比较规整的PDF文件。如果PDF文件中的表格数据不规则或者有其他复杂的布局，那么可能需要进行更加复杂的处理才能将表格数据正确地写入Excel中。

Python利用pdfplumber循环读取每一页的文本内容并打印内容，以下是Python代码实现：

import pdfplumber

with pdfplumber.open('example.pdf') as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

解释一下：

首先使用`pdfplumber.open()`打开PDF文件，在`with`语句中指定PDF文件路径和别名`pdf`。然后使用`for`循环遍历每一页，将文本内容提取出来并赋值给变量`text`，最后使用`print()`函数打印`text`内容。

需要注意的是，以上方法只适用于纯文本的PDF文件，如果PDF文件包含图片或其他非文本元素，则无法提取其内容。

栽树先生～

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python利用pdfplumber循环读取每一页并把表格写入Excel中

Python利用pdfplumber循环读取每一页并把表格写入Excel中
复制链接

扫一扫

专栏目录

Python利用pdfplumber循环读取每一页并把表格写入Excel中

“相关推荐”对你有帮助么？