![f915a467727846feaa58e996b078b83b.png](https://i-blog.csdnimg.cn/blog_migrate/87481c974a301551b0a115256767b758.jpeg)
PDF 表示 Portable Document Format,使用 .pdf 作为文件扩展名。虽然 PDF 支持许多功能,但现在我们专注于最常做的两件事:从 PDF 读取文本内容和从已有的文档生成新的 PDF。主要涉及到三个类:PdfFileReader、PdfFileWriter、PageObject。 Python中用于处理PDF文档的模块是PyPDF2。可以直接通过 pip 指令去安装:pip install PyPDF2
。 这个地方要注意,模块名是区分大小写的,除了 y 是小写其他字母都是大写。
1. PdfFileReader
PdfFileReader是 PyPDF2 提供的一个类,主要是通过方法和属性来提供获取pdf文件内容的相关功能。 使用PdfFileReader读取pdf文件前需要先创建一个PdfFileReader的对象:
PdfFileReader(stream, strict = True,warndest = None,overwriteWarnings = True)
- stream: File 对象或支持与 File 对象类似的标准读取和查找方法的对象,也可以是表示 PDF 文件路径的字符串。
- strict(bool): 确定是否应该警告用户所用的问题,也导致一些可纠正的问题是致命的,默认是 True
- warndest : 记录警告的目标(默认是 sys.stderr)
- overwriteWarnings(bool):确定是否 warnings.py 用自定义实现覆盖 Python 模块(默认为 True)
实例一:从PDF文件中提取文本
# 从P