python 获取pdf页数_【Python自动化办公】pdf文件自动处理

f915a467727846feaa58e996b078b83b.png

PDF 表示 Portable Document Format,使用 .pdf 作为文件扩展名。虽然 PDF 支持许多功能,但现在我们专注于最常做的两件事:从 PDF 读取文本内容和从已有的文档生成新的 PDF。主要涉及到三个类:PdfFileReader、PdfFileWriter、PageObject。 Python中用于处理PDF文档的模块是PyPDF2。可以直接通过 pip 指令去安装:pip install PyPDF2 。 这个地方要注意,模块名是区分大小写的,除了 y 是小写其他字母都是大写。

1. PdfFileReader

PdfFileReader是 PyPDF2 提供的一个类,主要是通过方法和属性来提供获取pdf文件内容的相关功能。 使用PdfFileReader读取pdf文件前需要先创建一个PdfFileReader的对象:

PdfFileReader(stream, strict = True,warndest = None,overwriteWarnings = True)
  • stream: File 对象或支持与 File 对象类似的标准读取和查找方法的对象,也可以是表示 PDF 文件路径的字符串。
  • strict(bool): 确定是否应该警告用户所用的问题,也导致一些可纠正的问题是致命的,默认是 True
  • warndest : 记录警告的目标(默认是 sys.stderr)
  • overwriteWarnings(bool):确定是否 warnings.py 用自定义实现覆盖 Python 模块(默认为 True)

实例一:从PDF文件中提取文本

# 从P
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值