每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel

u013250861

于 2024-01-05 21:33:43 发布

阅读量608

点赞数 9

分类专栏： # LLM/数据处理&Tokenizer 文章标签： pdf excel 前端

本文链接：https://blog.csdn.net/u013250861/article/details/135418458

版权

LLM/数据处理&Tokenizer 专栏收录该内容

44 篇文章 31 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用pdfplumber库来提取PDF文件中的表格和文本信息。首先介绍了pdfplumber的基本功能，包括获取PDF的元数据、页面信息以及处理文本和表格的方法。接着详细阐述了提取表格的步骤，包括open()函数的用法、Page类的属性和方法，以及extract_tables()方法。最后，提到了如何将提取的数据整理成dataframe并保存为Excel文件。

摘要由CSDN通过智能技术生成

pdfplumber简介
（1）可以方便地获取pdf的各种信息，包括文本、表格、图表、尺寸等，它不支持修改或生成pdf，也不支持对pdf扫描件的处理
（2）pdfplumber中有两个基础类，PDF和Page。前者用来处理整个文档，后者用来处理整个页面

实操步骤
（1）使用pdfplumber提取表格文本
①使用 pdfplumber.open("path/to/file.pdf") 读取pdf，返回一个pdfplumber.PDF类实例
PS.加载带密码的pdf需要传入参数password，例如：pdfplumber.open("file.pdf", password = "test")

②pdfplumber.PDF类介绍
Ⅰ.metadata属性：从PDF的Info中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等。
Ⅱ.pages属性：一个包含多个pdfplumber.Page实例的列表，每一个实例代表PDF每一页的信息。
Ⅲ.len(pdf.pages)——读取页数；first_page=pdf.pages[0]——选取页码

import pdfplumber
import pandas as pd

filename='f:\\python\\project\\文档\\nba.pdf'

with pdfplumber.open(filename) as pdf: #读取pdf，变量名pdf现在为pdfplumber.PDF类的实例

    # print(pdf.meta

了解本专栏

超级会员免费看

u013250861

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
每天一个小实例——使用pdfplumber提取pdf表格及文本，并保存到excel

Table对象提供对.cells，.rows和.bbox属性以及.extract(x_tolerance = 3, y_tolerance = 3)方法的访问。即：每一个表格为一个列表(table)，每个列表的每一行数据为一个列表（row),每行数据的列表中的每个元素为一个单元格的数据（cell)返回TableFinder类的实例，可以访问.edges，.intersections，.cells和.tables属性。③提取最大表格的文本：.extract_table(table_settings={})
复制链接

扫一扫

专栏目录