python 解析pdf文档的首、尾页

本文介绍了如何使用Python解析PDF文档,重点在于提取指定页面,尤其是首页和尾页。通过PyPDF2库读取PDF文件,获取总页数,然后创建新的PDF文件仅包含首页和尾页。此外,还展示了如何解析新组成的PDF文件,提取页面内容并返回为字符串列表。
摘要由CSDN通过智能技术生成

1.如何解析指定页面而不是文档的全部?

2.利用哪些三方库?


一、PDF文档解析

1.将输入尾的文档提取出首页和尾页(import PyPDF2 )

def getdespdf(self,path):
       # print("输出路径为:", self.file_path_out)
        fp=open(path,"rb")   #打开输入文件路径
        fr=PdfFileReader(fp) #读取pdf 输入流
        output=PdfFileWriter() #输出流
        lastpage = fr.getNumPages() #根据输入流得到pdf文档的总页数
        end_index = lastpage - 1
       # testnu=fr.getPageNumber()
        pages_index =[0,end_index] #首页和尾页的 index 组成一个元组
        for i in pages_index:
            output.addPage(fr.getPage(i)) #取到首页和尾页,加载进输出流
        outputstream = open(self.file_path_out,"wb") #确定提取后需要保存到的位置
        output.write(outputstream)#保存首页和尾页 得到一个新的pdf文件
        #closed stream
        outputstream.close()   #常规操作,关闭流
        fp.close()

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值