《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章处理PDF和Word文档(1)】

最新推荐文章于 2023-11-24 17:34:59 发布

此生小会

最新推荐文章于 2023-11-24 17:34:59 发布

阅读量949

点赞数

分类专栏： Python 文章标签： python PDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cckavin/article/details/79548286

版权

本文介绍了如何使用Python的PyPDF2库处理PDF文档，包括提取文本、解密、创建PDF、拷贝页面、旋转页面、叠加页面和加密PDF等操作。PyPDF2提供了解析和操作PDF文件的功能，但不支持图像和表格的提取。

摘要由CSDN通过智能技术生成

PDF 和 Word 文档是二进制文件。

1. PDF 文档

PDF表示Portable Document Format(可移植文档格式)，使用.pdf文件扩展名。用于处理PDF的模块是PyPDF2，这个模块是区分大小写的。

1) 从 PDF 提取文本

PyPDF2无法从PDF文档中提取图像，表格或其他媒体，但是可以提取文本。提取过程如下：

a) 以“rb”模式打开PDF文件。

b) 创建PdfFileReader对象。

c) 获取Paged对象。

d) 使用extractText()返回文本的字符串。

示例：

>>> import PyPDF2

>>> pdfFileObj =open('meetingminutes.pdf','rb')

>>> pdfReader =PyPDF2.PdfFileReader(pdfFileObj)

>>> pdfReader.numPages

19

>>> pageObj = pdfReader.getPage(0)

>>> pageObj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD MMIINNUUTTEESS   Meeting of\nMarch 7\n, 2014\n        \n     The Board of Elementary and SecondaryEducation shall provide leadership and \ncreate policies for education thatexpand opportunities for children, empower \nfamilies an

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章处理PDF和Word文档(1)】

PDF 和 Word 文档是二进制文件。1. PDF 文档PDF表示Portable Document Format(可移植文档格式)，使用.pdf文件扩展名。用于处理PDF的模块是PyPDF2，这个模块是区分大小写的。1) 从 PDF 提取文本PyPDF2无法从PDF文档中提取图像，表格或其他媒体，但是可以提取文本。提取过程如下：a) 以“rb”模式打开PDF文件。b) 创建...
复制链接

扫一扫

专栏目录

此生小会 CSDN认证博客专家 CSDN认证企业博客

码龄10年

143: 原创

4万+: 周排名

171万+: 总排名

76万+: 访问

: 等级

5348: 积分

89: 粉丝

297: 获赞

117: 评论

825: 收藏

私信

关注

热门文章

分类专栏

leetcode
Python 57篇
MongoDB 5篇
Redis 2篇
Django 7篇
Flask 19篇
Data Structure And Algorithm 1篇
DataBase 4篇
爬虫 3篇
Tool 7篇
Linux 9篇
Git 6篇
Docker 11篇
Nginx 3篇
Frontend 1篇
Tornado 1篇
AI 11篇

最新评论

webdriver.Chrome()报错：selenium.common.exceptions.WebDriverException: Message: 'chromedriver' ...
Hdr2394: 大家能给我看一下我这个是什么原因呀，我已经整了好久了
webdriver.Chrome()报错：selenium.common.exceptions.WebDriverException: Message: 'chromedriver' ...
Hdr2394: Traceback (most recent call last): File "D:/py/python study/spider_study/spider_尚硅谷/078_selenium_study.py", line 5, in <module> browser=webdriver.Chrome(path) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\chrome\webdriver.py", line 76, in __init__ RemoteWebDriver.__init__( File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 157, in __init__ self.start_session(capabilities, browser_profile) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 252, in start_session response = self.execute(Command.NEW_SESSION, parameters) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 319, in execute response = self.command_executor.execute(driver_command, params) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\remote_connection.py", li
Node--Ubuntu下源码编译安装Node.js（时间比较长）
水煮花生-: 我从上班开始make，然后下班正好make完，这下合理摸鱼了
Python--遍历列表时删除元素的正确做法
qq_41745159: 思路一下清晰了，感谢
django.db.utils.OperationalError: (1366, "Incorrect string value: '\\xF0\\x9F\\x90\\x8D \\xC2...' )
不会打代码的计算机学习人: 没有配置文件可以怎没更改

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。