通过Python的PyPDF2库提取pdf中的文字

前言

一、PyPDF2库是什么?

PyPDF2是一个用于处理PDF文件的Python库,它提供了许多用于读取和操作PDF文件的功能。它可以对PDF文件进行合并、分割、旋转、提取页面、加密和解密等操作,也可以添加文本、图像和水印等元素到PDF文件中。
PyPDF2库允许开发人员通过Python代码轻松地处理PDF文件,因为它提供了一些简单易用的接口,同时它也非常灵活,可以根据需要进行自定义操作。对于需要处理PDF文件的Python应用程序,PyPDF2是一个非常实用的工具库。

二、安装PyPDF2库

pip install PyPDF2

三、查看PyPDF2库版本

pip show PyPDF2

Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:

四、使用方法

1.引入库

import PyPDF2

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with open(local+'demo.pdf', 'rb') as pdf_file:

4.创建PDF阅读器对象

pdf_reader = PyPDF2.PdfReader(pdf_file)

5.获取PDF文件中的页数

num_pages = len(pdf_reader.pages)

6.遍历每一页

for page_num in range(num_pages):

7.获取当前页内容

page = pdf_reader.pages[page_num]

8.提取当前页文本

page_text = page.extract_text()

9.打印当前页文本

print(page_text)

10.效果

大家好,我是空空star,这是第一页。
大家好,我是空空star,这是第二页。
大家好,我是空空star,这是第三页。
Process finished with exit code 0

总结

需要提取的pdf截图

评论 97
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

空空star

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值