python 解析pdf文档的首、尾页

最新推荐文章于 2024-07-11 13:58:40 发布

qq_28859425

最新推荐文章于 2024-07-11 13:58:40 发布

阅读量558

点赞数

本文链接：https://blog.csdn.net/qq_28859425/article/details/84066666

版权

本文介绍了如何使用Python解析PDF文档，重点在于提取指定页面，尤其是首页和尾页。通过PyPDF2库读取PDF文件，获取总页数，然后创建新的PDF文件仅包含首页和尾页。此外，还展示了如何解析新组成的PDF文件，提取页面内容并返回为字符串列表。

摘要由CSDN通过智能技术生成

1.如何解析指定页面而不是文档的全部？

2.利用哪些三方库？

一、PDF文档解析

1.将输入尾的文档提取出首页和尾页（import PyPDF2 ）

def getdespdf(self,path):
# print("输出路径为:", self.file_path_out)
fp=open(path,"rb") #打开输入文件路径
fr=PdfFileReader(fp) #读取pdf 输入流
output=PdfFileWriter() #输出流
lastpage = fr.getNumPages() #根据输入流得到pdf文档的总页数
end_index = lastpage - 1
# testnu=fr.getPageNumber()
pages_index =[0,end_index] #首页和尾页的 index 组成一个元组
for i in pages_index:
output.addPage(fr.getPage(i)) #取到首页和尾页，加载进输出流
outputstream = open(self.file_path_out,"wb") #确定提取后需要保存到的位置
output.write(outputstream)#保存首页和尾页得到一个新的pdf文件
#closed stream
outputstream.close() #常规操作，关闭流
fp.close()