python学习笔记之读取pdf文件库pdfplumber（一）

最新推荐文章于 2025-04-10 22:24:08 发布

旋转小马

最新推荐文章于 2025-04-10 22:24:08 发布

阅读量3.1k

点赞数 5

分类专栏： python学习笔记文章标签： python pdf pdfplumber python提取PDF文本

本文链接：https://blog.csdn.net/u014543416/article/details/121767825

版权

python学习笔记专栏收录该内容

27 篇文章

订阅专栏

python现在处理word、Excel、pdf等文档有很多的库，今天学习一个处理pdf的库：pdfplumber，主要学习提取文本内容和表格。

安装

pip install pdfplumber

提取文本 extract_text()

import pdfplumber
# 打开一PDF文档，比如打开《浪潮之巅》
pdf = pdfplumber.open('浪潮之巅.pdf')
# 提取第一页的本文内容
text = pdf.pages[0].extract_text()
print(text)

如下输出，左边是我们的代码输出，右边是PDF的第一页内容，提取的text整体是一个字符串；

提取文本 extract_words()

提取文本还提供了另一个方法

text = pdf.pages[0].extract_words()
print(text)

其输出如下，提取出各部分的页面位置信息整体放在一个list中；

提取表格 extract_table() 和 extract_tables()

我们换另外一个有表格的PDF文档来尝试一下，文档第一页内容如下（文档若侵权，请联系删除）：

pdf_table = pdfplumber.open('M2021011300001742_1.pdf')
print(pdf_table.pages[0].extract_table())

结果发现只提取页面中的最后一个表格内容信息，输出如下：

所以我们再试一试extract_tables()

此时发现便可以把所有的表格信息都提取出来，这便是两个方法的区别。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

旋转小马

关注关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Python-pdfplumber读取PDF所有内容并自行提取指定内容

weixin_42636075的博客

01-12

4969

Python-pdfplumber读取PDF所有内容并自行提取指定内容 python读取PDF提取文本 python读取PDF文件

利用python pdfplumber读取pdf文件内容

weixin_42305022的博客

04-26

6277

一、简单介绍： 1、Pdfplumber是一个可以处理pdf格式信息的库。 2、pdfplumber安装：pip安装即可，可能需要安装pdfminer库，py3.7版本及以上需安装pdfminer.six 3、常用函数：基于pdf页面的 .extract_text() 用来提页面中的文本，返回字符串 .extract_words() 返回的是所有的单词及其相关信息 .extract_tables...

1 条评论您还未登录，请先登录后发表或查看评论

python应用之使用pdfplumber 解析pdf文件内容

nalanxiaoxiao2011的博客

04-07

594

通过 pdfplumber.open() 解析复杂PDF：

通过Python提取pdf中的文字

JOKers_Joke的博客

07-27

1437

Python关于PDF总结

python使用pdfplumber读取PDF文本及其位置

高山流水

08-10

1万+

python使用pdfplumber读取PDF文本及其位置 pdfplumber入门可以参照官方的教程学习https://github.com/jsvine/pdfplumber 这里也推荐一个使用入门介绍的很清楚的博客https://blog.csdn.net/weixin_48629601/article/details/107224376，把官网的教程翻译解释的很清晰。文本及其位置的读取代码 pdf读取示例比如我想获得图中**能量**在pdf中的位置，推荐使用jupyter notebook去

python读取pdf文件获取pdf的文本内容

weixin_42185136的博客

09-23

7422

安装PyPDF2 , pip install PyPDF2 import PyPDF2 from urllib.request import urlopen file = open('D:/ltn20190716133.pdf', 'rb') fileReader = PyPDF2.PdfFileReader(file) #pdf page numbers totals print(fileR...

python 操作pdf

有勇气的牛排博客

07-03

323

导入包 import pdfplumber 函数说明函数说明 extract_text() 读取文字 extract_words() extract_table() 读取表格（列表） extract_tables() 读取表格读取pdf指定页面内容 with pdfplumber.open('C:/Users/Administrator/Desktop/期末/0操作系统/操作系统习题1.pdf') as pdf: first_page = pdf.pages

python核心笔记.pdf

03-26

【Python核心笔记】深入浅出地探讨了Python这一强大且多用途的编程语言。Python以其简单易用且功能强大的特性，赢得了广大开发者的喜爱。它是一种解释型的高级编程语言，支持面向对象编程，同时也具备过程化编程的...

Python学习笔记(干货) 中文PDF完整版，适合小白入门学习

01-20

本文将详细探讨这份《Python学习笔记(干货) 中文PDF完整版》的核心内容，为编程初学者提供一个扎实的入门基础。考虑到篇幅限制，以下内容将涵盖Python基础概念、基本语法、数据结构、函数和模块、异常处理、文件操作...

Python 学习笔记 第二版.pdf

08-15

### Python学习笔记第二版知识点概览 #### 一、Python语言基础 - **虚拟机**：Python运行在一种称为Python虚拟机（PVM）的环境中。这种虚拟机负责执行Python字节码，提供了语言级别的抽象层，使得Python程序可以在...

Python学习笔记——csv/excel文件读写&保存

12-21

2. **默认路径检查**：在读写文件时，如果没有指定路径，Python会默认在当前工作目录下查找文件。可以通过`os.getcwd()`获取当前工作目录。 3. **自定义路径**：如果文件位于其他位置，需要提供完整路径。例如： `...

python解析pdf

12-20

python解析pdf, python pdfminer工具，内部含有示例

Python学习笔记：20 Python读写Word文件和PDF文件

qq_44733409的博客

08-14

831

写Word文档使用Python写Word文档需要安装docx三方库，如下示例写了一个简单的Word文档 from docx import Document from docx.shared import Cm, Pt from docx.document import Document as Doc # 创建一个word对象 document = Document() # type:Doc # font = document.styles['Normal'].font # font.size = Pt

PDFPlumber使用入门