python 从Url获取pdf内容：

最新推荐文章于 2024-05-13 09:48:07 发布

bismillahhh

最新推荐文章于 2024-05-13 09:48:07 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41617060/article/details/124269562

版权

python 专栏收录该内容

18 篇文章

订阅专栏


def getpdfContent(url):
    import urllib3
    import io
    import PyPDF2
    urllib3.disable_warnings()
    contents = ''
    # url = 'https://www.apc-paris.com/system/files/file_fields/2022/04/14/apc-trophees-coachcopro-vf.pdf'
    with urllib3.PoolManager() as http:
        r = http.request('GET', url)
        with io.BytesIO(r.data) as f:
            reader = PyPDF2.PdfFileReader(f)
            nums = reader.getNumPages()
            print(type(nums), nums)
            for i in range(int(nums)):
                pageContent = ' '.join(reader.getPage(0).extractText().split('\n'))
                contents += pageContent
    # print(contents)
    return contents

博客等级

码龄7年

55
原创

85
点赞

209
收藏

260
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

图数据库 py2neo driver 使用笔记
bismillahhh: 如果你是数据复杂度的问题，可以考虑使用插件apoc中的路径查询方法。
图数据库 py2neo driver 使用笔记
weixin_42576965: 老哥在解析路径查询结果的时候速度很慢是怎么回事
sql表数据到图结构转换服务
羊又串真好吃: 博主写的真好，学到了，有些问题想跟您私下交流，能否留个违心呐
python float 精度处理
技术小白白~: 挺好的，python float 精度处理很不错！收获满满，感谢大佬分享，平时相互学习呀，可以给个WX吗？
电脑进入BIOS系统的简单方法。
weixin_48054158: 谢了啊大佬

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。