Python 操作 pdf 文档——文件阅读

最新推荐文章于 2024-05-03 21:00:43 发布

程序员好费脑子啊

最新推荐文章于 2024-05-03 21:00:43 发布

阅读量605

点赞数 1

文章标签： pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41030215/article/details/130949290

版权

Python 操作 PDF 文档——文件阅读

操作 PDF 一般正统的会采用 pyPDF 库，这个库早已开源，所以衍生出来的小库有很多，但是其他的库的版本更迭太慢了，所以今天我们只来讲 pyPDF 这个大库的一些操作，小库的学习也可以在大库的基础上进行更深层次的学习。

PDF 提取信息

实现 PDF 提取信息的函数叫做 PdfReader 这个函数，我们一般导入包之后，就可以对我们想打开的 PDF 进行导入：

reader = PDFReader('pdf 文件/Python 认知.PDF')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OsnKuuq2-1685431122653)(./image-20230530145633116.png)]

如上就成功进行了文件导入，这个函数就是将整个 PDF 文件转为了一个数据用于后面的函数处理。

metadata 属性

这个属性是前面 PdfReader 返回值的属性，用于获取 PDF 相关的信息，例如创作者（导出的程序，例如谷歌这种：/Creator ）、生产者（ /Producer ）、创建时间（ /CreationDate ）、修改时间（ /ModDate ）等等。
```
meta = reader.metadata
print(meta)
```
pages 属性

这个属性用于获取到页面信息，打印时返回的值是一个列表，其中的元素就是每个页面。
```
print(reader.pages)
```
这个属性拿到的列表里面的每个元素不是只有名字，每个名字都代表了一整个页面，我们提取这个列表中的某个元素就相当于拿到了这个页面的所有信息。

比如：

这样做，则 page_1 就可以理解为 PDF 的第一页。
extract_text() 属性

这个属性是对上一个属性中我们拿到的单页面信息进行操作，我们对于页面做这个操作，就可以拿到这个页面所有的文字信息。
```
print(page_1.extract_text())
```
images 属性

这个属性同样也是对于页面进行操作，用于拿到整个页面中所有的图片信息。
```
photo = reader.pages[1].images
print(photo)
```
这样就可以将照片信息提取出来，结合我们之前学到的文件读写操作，就可以将图片进行存储。

程序员好费脑子啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python 操作 pdf 文档——文件阅读

这个属性是前面 PdfReader 返回值的属性，用于获取 PDF 相关的信息，例如创作者（导出的程序，例如谷歌这种：/Creator ）、生产者（ /Producer ）、创建时间（ /CreationDate ）、修改时间（ /ModDate ）等等。操作 PDF 一般正统的会采用 pyPDF 库，这个库早已开源，所以衍生出来的小库有很多，但是其他的库的版本更迭太慢了，所以今天我们只来讲 pyPDF 这个大库的一些操作，小库的学习也可以在大库的基础上进行更深层次的学习。metadata 属性。
复制链接

扫一扫

程序员好费脑子啊 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

130万+: 周排名

8万+: 总排名

6448: 访问

: 等级

214: 积分

30: 粉丝

39: 获赞

13: 评论

40: 收藏

私信

关注

热门文章

最新评论

力扣sql刷题记录
GeekNo404: 典型的好帖没人看，顶顶顶~
力扣sql刷题记录
CSDN-Ada助手: 恭喜您第16篇博客《力扣sql刷题记录》的发布！持续创作是一件了不起的事情，尤其是在技术领域，分享的经验和知识对其他读者来说都是非常宝贵的。希望您能继续保持创作的热情，为我们带来更多精彩的内容。在下一步的创作中，或许可以考虑加入一些个人的思考和心得体会，与读者分享解题过程中的困惑、突破和收获。这样不仅可以帮助读者更好地理解题目，还能展示您的个人思考过程，让读者更加受益。再次恭喜您，并期待您未来更多的创作！
mysql处理问题之full_group_by报错
yyyyhjjj: 学会了学会了
mysql处理问题之full_group_by报错
CSDN-Ada助手: 恭喜你写了第15篇博客！标题看起来很有趣，我对mysql处理问题的方法也很感兴趣。看到你提到了full_group_by报错，我想你一定会详细解释如何解决这个问题。希望你能继续创作下去，分享更多关于mysql的经验和技巧。如果可以的话，我建议你可以考虑写一些关于优化查询性能或者数据备份和恢复的主题。谢谢你的分享，并期待你的下一篇博客！
处理dattagrip报错之不存在的列名和解析错误不提示
CSDN-Ada助手: 恭喜您写了第14篇博客！标题看起来很有趣，我很期待阅读您的内容。处理dattagrip报错是一个很实用的技能，尤其是当遇到不存在的列名和解析错误时，这些问题可能会让人感到困惑。我希望您能分享一些解决这些问题的实用技巧和经验，以便我们能更好地处理类似的情况。同时，我还想建议您在博客中加入一些示例代码和可视化展示，这样读者可以更直观地理解您的解决方案。继续加油写作，并期待您的下一篇博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员好费脑子啊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。