版权声明
本次学习的内容主要是:从PDF读取文本内容和从已经有的文档生成新的PDF。
需要用到的模块是PyPDF2.
首先要在命令行中运行pip install PyPDF2.
一、从PDF读取文本
PyPDF2无法从pdf文档中提取图像,图表和其他媒体,但是它可以提取文本,并且将文本返回为python字符串。
importPyPDF2
# ===============从pdf中提取文本===========
pdffile=open(r'E:\python让繁琐的工作自动化\13_处理pdf和word文档\data\meetingminutes.pdf','rb')# 读取pdf文件
pdfreader=PyPDF2.PdfFileReader(pdffile)# 读入到
print(pdfreader.numPages)# 读取pdf页数======19
读取pdf文件的页数是:
获取第一页的内容:
page0=pdfreader.getPage()#获取第1页,第一页是0
print(page0.extractText())# 获取第2页的内容,返回的是字符串
内容是
二、解密PDF
某些文档有加密功能,为了防止别人阅读,只有在打开文档的时候提供口令才能阅读。我打开的文件的加密口令是rosebud.
其实在读取一个pdf文件是首先应该确定它是否加密了。如果加密,isEncrypted属性就会返回True.此时就需