Python编程：pypdf2和pdfplumber获取pdf文件的页数

最新推荐文章于 2025-04-07 13:24:18 发布

彭世瑜

最新推荐文章于 2025-04-07 13:24:18 发布

阅读量1.2w

点赞数 5

分类专栏： Python

本文为博主原创文章，欢迎转载，请注明出处

本文链接：https://blog.csdn.net/mouday/article/details/85269745

版权

Python 专栏收录该内容

614 篇文章

订阅专栏

pypdf2

安装

pip install pypdf2

代码实例

from PyPDF2 import PdfFileReader

filename = "test.pdf"
reader = PdfFileReader(filename)

# 不解密可能会报错：PyPDF2.utils.PdfReadError: File has not been decrypted
if reader.isEncrypted:
    reader.decrypt('')

page = reader.getNumPages()
print(page)

"""
如果加密是高版本的（3, 4），可能会报错
NotImplementedError: only algorithm code 1 and 2 are supported

原因是：
代码中有版本判断
if not (encrypt['/V'] in (1, 2)):
    raise NotImplementedError("only algorithm code 1 and 2 are supported")
"""

参考：
https://github.com/mstamy2/PyPDF2/issues/51#issuecomment-437839902

pdfplumber

安装

pip install pdfplumber

代码示例

import pdfplumber

filename = "test.pdf"
f = pdfplumber.open(filename)
print(len(f.pages))

就是那么简单，没有过多的繁琐操作，暂时没有发现其他莫名问题

实际使用中发现前者速度要快很多

参考
https://github.com/jsvine/pdfplumber

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

彭世瑜

关注关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PyPDF2详解教程、依赖库安装、导入及主要功能函数介绍

布啦啦

08-02

1万+

PyPDF2 是一个用于处理 PDF 文件的 Python 库。它可以用于读取、编辑、合并和拆分 PDF 文档，还可以提取文本、图像和其他内容。功能丰富：PyPDF2 提供了许多功能来操作 PDF 文件。你可以使用它来读取 PDF 文档的内容、页面和元数据，也可以创建新的 PDF文件，合并多个 PDF 文件，拆分 PDF 文件为单独的页面，添加页面和水印等。纯Python实现：PyPDF2 是一个纯 Python 实现的库，这使得它易于安装和使用，而且可以在各种平台上运行。

Python爬虫教程：从PDF文件中提取数据并进行处理

最新发布

2201_76125261的博客

04-13

1001

在本文中，我们将重点介绍如何使用Python从PDF文件中提取数据，并对提取的数据进行进一步处理。与PyPDF2不同，pdfminer可以解析页面中的字体、布局等信息，适合需要提取复杂布局的PDF文件。同时，我们也介绍了如何处理从PDF中提取的数据，包括数据清洗、正则表达式应用、数据存储等操作。PyPDF2的缺点是，它对某些复杂PDF格式（如含有多列或表格的PDF）提取的效果较差，尤其是无法处理图像或非文本的内容。Tesseract能够通过识别图像中的文本，提取出PDF中的内容，尤其适用于扫描PDF文件。

参与评论您还未登录，请先登录后发表或查看评论

Python利用PyPDF2库获取PDF文件总页码实例

09-17

主要介绍了Python利用PyPDF2库获取PDF文件总页码实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python利用PyPDF2库获取PDF文件总页码

茕夜

01-17

4707

Python中可以利用PyPDF2库来获取该pdf文件的总页码，可以根据下面的方法一步步进行下去： 1、首先，要安装PyPDF2库，利用以下命令即可： pip install PyPDF2 2、接着，就是直接编写代码了，其中我新建了一个py文件，名为file_utils.py，代码如下： from PyPDF2 import PdfFileReader def get_num_pa...

python应用之使用pdfplumber 解析pdf文件内容

nalanxiaoxiao2011的博客

04-07

740

通过 pdfplumber.open() 解析复杂PDF：

python-计算文件夹里的.pdf文件的总页数

kjprime的博客

03-24

1925

为什么做这个？因为有时候我们需要打印，需要知道自己的总页数然后算钱。如果有word，毕竟去打印店，转化为.pdf打印好些。代码展示先安装PyPDF2依赖 pip install PyPDF2 代码 from PyPDF2 import PdfFileReader as pr import os def single_pdf_count(pdf_path: str) -> int: #计算单个pdf的页数 count = 0 try: f =

计算pdf页数

博客

12-15

399

print(f'PDF 文件的总页数为: {total_pages} 页')# 获取 PDF 文件总页数。# 指定 PDF 文件路径。# 打开 PDF 文件。

PYTHON得到pdf页数、遍历当前文件夹

古月哲亭

09-21

4461

#第一步安装PyPDF2 pip install PyPDF2 #第二步导入相应的模块 from PyPDF2 import PdfFileReader #第三步：定义相对应的函数 def get_num_pages(file_path): """ 获取文件总页码 :param file_path: 文件路径 :return: """ reader = PdfFileReader(file_path) # 不解密可能会报错：PyPDF2.uti

Python分割指定页数的pdf文件方法

09-20

在Python编程中，处理PDF文件是一项常见的任务，特别是在文档管理和自动化流程中。本文将详细介绍如何使用Python库PyPDF2来分割指定页数的PDF文件。PyPDF2是一个强大的Python库，用于读取、操作和合并PDF文件，它...

PDF:一个简单的Python脚本，可解析PDF文件

05-15

PyPDF2是一个纯Python库，允许读取和操作PDF文件，但不支持写入或创建新的PDF文件。你可以通过以下命令安装PyPDF2： ```bash pip install PyPDF2 ``` 一旦安装完成，你可以使用以下基本代码来打开并读取PDF文件： ...

【Python PDF处理全攻略】：精通pypdf2的18个实用技巧及解决方案

PyPDF2作为Python处理PDF文件的利器之一，以其简便的API和广泛的适用性，成为许多开发者处理PDF文件的首选库。 ## PDF处理的重要性 PDF处理不仅限于文件内容的查看和打印，还包括提取信息、修改内容、添加或删除...

使用PyPDF2（v.3.0.1）来操作pdf文件——插入所需页数

QuintoHe的博客

05-16

1200

读入需要操作的pdf，创建一个新的合并pdf。# 合并pdf的页数选择。

python之PyPDF2:操作PDF文档示例详解

naer_chongya的博客

06-29

4186

通过上述示例代码，我们可以发现PyPDF2库提供了一系列的方法用于处理PDF文档。无论是读取文档信息、提取文本内容，还是进行合并、拆分和添加水印等操作，PyPDF2库都能很好地满足我们的需求。PyPDF2是一个用于处理PDF文档的Python库。它提供了一系列的功能，使我们能够读取、修改和创建PDF文件。本文将详细介绍PyPDF2库的使用示例，包括读取文档信息、提取文本内容、合并和拆分文档以及添加水印等操作。安装完成后，我们可以开始使用PyPDF2库。首先，我们需要安装PyPDF2库。

python获取pdf和word文档页数

Twinkle_sone的博客

04-22

5125

python获取word文档和pdf文档页数的方法 1、获取pdf页码数这里要使用到 pdfplumber 这个库，首先导入没有安装的同学还需要先安装 pip install pdfplumber import pdfplumber from pdfminer.pdfparser import PDFSyntaxError 官方教程 https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelera

PyPDF2模块

qq_37493425的博客

09-12

1485

1、PdfFileReader 构造方法： PyPDF2.PdfFileReader(stream,strict = True,warndest = None,overwriteWarnings = True) stream：*File 对象或支持与 File 对象类似的标准读取和查找方法的对象，也可以是表示 PDF 文件路径的字符串。* strict（bool）：确定是否应该警告用户所用的...

【Python】用于在 Python 中处理 PDF 文件的 PyPDF2 库

fengdu78的博客

10-27

1553

作者| megha152编译 | Flin来源 | analyticsvidhya介绍PDF 代表便携式文档格式。它使用 .pdf 扩展名。这种类型的文件主要用于共享目的。它们不能被修改...

Python处理PDF文档

yuting209的专栏

03-15

972

PDF 表示 Portable Document Format，使用 .pdf 作为文件扩展名。虽然 PDF 支持许多功能，但现在我们专注于最常做的两件事：从 PDF 读取文本内容和从已有的文档生成新的 PDF。主要涉及到三个类：PdfFileReader、PdfFileWriter、PageObject。 Python中用于处理PDF文档的模块是PyPDF2。可以直接通过 pip 指令去安装：p...

PHP读取PDF页数的方法

weixin_33963189的博客

04-30

574

2019独角兽企业重金招聘Python工程师标准>>> ...

Python系列之 PyPDF2库

唐僧骑马噔了个噔

04-16

6073

Python系列之 PyPDF2库学习 PyPDF2中主要涉及到的几个对象有 PdfFileReader、PdfFileWriter和PdfFileMerger以及PageObject PdfFileReader PdfFileReader对象： import PyPDF2 PyPDF2.PdfFileReader(stream , strict=True , warndest=None , overwriteWarnings=True)) # 参数 # stream ：一个 File 对象或支持类似于