用python（PyPDF3）写一个提取pdf文字并保存的程序

原创于 2023-04-05 17:43:53 发布 · 940 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#pdf #java #开发语言

该代码示例展示了如何用Python的PyPDF3库逐页读取PDF文件的内容，并将每一页的文本保存到单独的UTF-8编码的文本文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可以使用 PyPDF3 库来读取 PDF 文件中的文本，并将其保存到文件中。下面是示例代码：

打开 PDF 文件

import PyPDF3
with open('example.pdf', 'rb') as pdf_file:
    # 创建 PDF 阅读器
    pdf_reader = PyPDF3.PdfFileReader(pdf_file)

    # 循环读取每一页
    for page_num in range(pdf_reader.numPages):
        # 获取当前页对象
        page = pdf_reader.getPage(page_num)
        
        # 获取当前页文本
        page_text = page.extractText()

        # 将文本保存到文件中
        with open(f'page_{page_num+1}.txt', 'w', encoding='utf-8') as text_file:
            text_file.write(page_text)

此代码将读取 PDF 文件中的每一页，并将每一页的文本保存到以页面编号命名的文本文件中。