前段时间做个小项目,想要用python读取pdf内容,但是搜索了一圈,大都是用pypdf2,
我自己测试的时候总是莫名其妙的报错,
机缘巧合之下,看到有朋友用pdfplumber
总共几行代码就可以实现功能,所以在这里分享给大家
当然,前提肯定是需要pip install pdfplumber啦
import pdfplumber
with pdfplumber.open('example.pdf') as pdf:
for page in pdf.pages:
with open('wenan.txt','a',encoding='utf-8') as f:
f.write(page.extract_text())
print(page.extract_text())
# 每页打印一分页分隔
print('---------- 分页分隔 ----------')