PDF文件的读取 - pdfplumber和fitz(PyMuPDF)

1. 通过文件路径读取

本文是截止2020年最新的pdf文本流和字节流的读取方式(pdfplumber和fitz读取pdf)

pdfplumber:
  • pdf = pdfplumber.open(path)
fitz:
  • pdf = fitz.open(path)
  • pdf = fitz.Document(path)

2.读取二进制的pdf文件

2.1 先拿到pdf的bytes类型数据:
# 方式1:通过打开文件的方式获取
with open(path, 'rb') as f:
	pdf_bytes = f.read()  # 此时pdf_bytes是pdf格式的bytes数据
# 方式2:通过拿取post请求获取的bytes数据
# 以flask为例
from flask import request

files = request.files.get('files')  # request获取表单文件,.get('files')是从字典中拿取key为'files'的文件
pdf_bytes = files.read()  # flask的read()方法把它读取为bytes数据
2.2 读取pdf的bytes数据
pdfplumber:
import io
import pdfplumber

f = io.BytesIO(pdf_bytes)
pdf = pdfplumber.load(f)  # .load(f)方法可以读取BytesIO二进制流的数据
fitz
import fitz

with fitz.Document(stream=pdf_bytes, filetype='pdf') as pdf:
	print('我们拿取到了pdf对象, 可以用于后面的信息处理')
	pass

# 也可以写成
pdf = fitz.Document(stream=pdf_bytes, filetype='pdf')
print('我们拿取到了pdf对象, 可以用于后面的信息处理')
pdf.close()
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值