读取本地pdf或者读取url地址的pdf文件，返回文字，且pdf图片存储到文件夹里

cdg==吃蛋糕

已于 2024-03-07 09:52:27 修改

阅读量375

点赞数 7

文章标签： python pdf

于 2024-03-07 09:42:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39689854/article/details/136524510

版权

import os

import io

import requests

import warnings
import pdfplumber

def read_pdf(path,proxies={},timeout=(3.2,10),download_image=False):
f=''
if path=='' or type(path)!=str:
print("路径为空或格式不对！")
if path[0:4]=="http":
try:
#data=request.urlopen(path,timeout=10).read()
print(proxies)
data=requests.get(url=path,timeout=timeout,proxies=proxies)
f = io.BytesIO(data.content)
except Exception as e:
print(e,"打开链接失败")
return
else:
try:
path=urllib.parse.unquote(path)
path=path.replace('file:///','').replace('/','\\')
f=open(path,'rb')
except Exception as e:
print(e,"打开本地文件失败")

text=''
old_path=os.getcwd()
if download_image:
im_path=path.replace('https://','').replace("http://",'')
os.makedirs(im_path, exist_ok=True)
os.chdir(im_path)

with pdfplumber.open(f) as pdf:
# 遍历每个页面
for page in pdf.pages:
# 获取当前页面的全部文本信息，包括表格中的文字,没有内容则打印None
text+=page.extract_text()
if download_image:
images=page.images
i=0
for img in images:
f_img=open('{}.png'.format(i),'wb+')
f_img.write(img['stream'].get_data())
f_img.close()
i+=1
os.chdir(old_path)
f.close()
return text

#读取本地pdf或者读取url地址的pdf文件，返回文字，且pdf图片存储到文件夹里

path="E:\\1.pdf"

#path="http://aa.com/1.pdf"

print(read_pdf(path))

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

cdg==吃蛋糕 CSDN认证博客专家 CSDN认证企业博客

码龄7年

32: 原创

78万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

529: 积分

153: 粉丝

209: 获赞

12: 评论

186: 收藏

私信

关注

热门文章

最新评论

cv2 视频UDP传输
CSDN-Ada助手: 网络技能树或许可以帮到你：https://edu.csdn.net/skill/network?utm_source=AI_act_network
python socket recv接收不固定长度数据方法
CSDN-Ada助手: 恭喜你写了第18篇博客！看到你分享关于python socket recv接收不固定长度数据的方法，感觉很有收获。希望你能继续保持创作的热情，不断分享更多有价值的内容。下一步可以考虑深入探讨如何处理异常情况或者优化性能方面的内容，期待你的精彩文章！愿你在创作的路上不断进步，谢谢你的分享！
arangodb集群
CSDN-Ada助手: 恭喜您撰写了关于"arangodb集群"的第11篇博客！持续创作是非常了不起的事情，您的坚持和努力可嘉。在下一步的创作中，或许可以深入探讨arangodb集群的优缺点，或者分享一些实用的使用技巧，这样能够更好地帮助读者理解和应用这一技术。期待您更多精彩的文章！愿您在创作道路上不断进步，谢谢您的分享！
mysql的导入和导出
CSDN-Ada助手: 恭喜您发布了第12篇博客，标题为“mysql的导入和导出”！对于数据库操作的教程总是很实用，帮助他人解决实际问题。接下来，或许可以考虑分享一些高级操作技巧或者案例分析，让读者能够更深入地了解数据库管理的各种可能性。期待您的下一篇作品！愿您继续保持创作的热情！
docker 容器保存成镜像
CSDN-Ada助手: 恭喜您撰写了第13篇博客！对于docker容器保存成镜像这一主题的分享，相信对许多读者都是十分有价值的。希望您能继续保持创作的热情和耐心，继续分享更多有趣且实用的技术内容。或许下一步可以考虑探讨一些高级的docker操作技巧或者与其他技术的结合应用，让读者们有更多收获。期待您的下一篇作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。