可以使用 PyPDF3 库来读取 PDF 文件中的文本,并将其保存到文件中。下面是示例代码:
打开 PDF 文件
import PyPDF3
with open('example.pdf', 'rb') as pdf_file:
# 创建 PDF 阅读器
pdf_reader = PyPDF3.PdfFileReader(pdf_file)
# 循环读取每一页
for page_num in range(pdf_reader.numPages):
# 获取当前页对象
page = pdf_reader.getPage(page_num)
# 获取当前页文本
page_text = page.extractText()
# 将文本保存到文件中
with open(f'page_{page_num+1}.txt', 'w', encoding='utf-8') as text_file:
text_file.write(page_text)
此代码将读取 PDF 文件中的每一页,并将每一页的文本保存到以页面编号命名的文本文件中。