1、首先安装第三方库:
pip install pypdf2
2、使用PyPDF2
的PdfReader
类可以读取文件并提取文字,如:
"""
example094 - 读取PDF文件并提取文字
安装第三方库:pip install pypdf2
Author: 不在同一频道上的呆子
Date: 2024/7/27
"""
import PyPDF2
# 注意:这里使用的是PyPDF2的PdfReader类
with open('Resources/Windows8使用指南.pdf', 'rb') as file:
# 创建一个PDF阅读器对象
reader = PyPDF2.PdfReader(file)
# 获取PDF的页数
num_pages = len(reader.pages)
# 遍历每一页
for page_num in range(num_pages):
page = reader.pages[page_num]
# 提取文本
text = page.extract_text()
if text:
print(text)