094、Python 读取PDF文件并提取文字

最新推荐文章于 2024-08-19 14:43:54 发布

不在同一频道上的呆子

最新推荐文章于 2024-08-19 14:43:54 发布

阅读量623

点赞数 5

分类专栏： Python 入门学习文章标签： python pdf 开发语言

本文链接：https://blog.csdn.net/mr_five55/article/details/140732837

版权

Python 入门学习专栏收录该内容

102 篇文章 4 订阅

订阅专栏

1、首先安装第三方库：

pip install pypdf2

2、使用PyPDF2的PdfReader类可以读取文件并提取文字，如：

"""
example094 - 读取PDF文件并提取文字

安装第三方库：pip install pypdf2

Author: 不在同一频道上的呆子
Date: 2024/7/27
"""
import PyPDF2

# 注意：这里使用的是PyPDF2的PdfReader类
with open('Resources/Windows8使用指南.pdf', 'rb') as file:
    # 创建一个PDF阅读器对象
    reader = PyPDF2.PdfReader(file)
    # 获取PDF的页数
    num_pages = len(reader.pages)

    # 遍历每一页
    for page_num in range(num_pages):
        page = reader.pages[page_num]
        # 提取文本
        text = page.extract_text()
        if text:
            print(text)