python合并多个pdf_pypdf将多个pdf文件合并到一个pd中

我最近遇到了一个完全相同的问题,所以我深入PyPDF2,看看发生了什么,以及如何解决它。

注意:我假设filename是格式良好的文件路径字符串。假设我所有的代码都是一样的

简短的回答

使用PdfFileMerger()类而不是PdfFileWriter()类。我已经尽力提供以下内容以尽可能接近您的内容:from PyPDF2 import PdfFileMerger, PdfFileReader

[...]

merger = PdfFileMerger()

for filename in filenames:

merger.append(PdfFileReader(file(filename, 'rb')))

merger.write("document-output.pdf")

长长的答案

使用PdfFileReader和PdfFileWriter的方法是保持每个文件打开,并最终导致Python生成IOError 24。更具体地说,当您将页面添加到PdfFileWriter时,您将在打开的PdfFileReader中添加对该页面的引用(因此,如果您关闭该文件,将出现注意到的IO错误)。Python检测到文件仍然被引用,并且不会执行任何垃圾收集/自动关闭文件,尽管重新使用了文件句柄。它们一直保持打开状态,直到不再需要访问它们,这在代码中的output.write(outputStream)处。

要解决此问题,请在内容的内存中创建副本,并允许关闭文件。在我通过PyPDF2代码进行的冒险中,我注意到PdfFileMerger()类已经有了这个功能,所以我没有重新发明轮子,而是选择使用它。不过,我了解到,我最初对PdfFileMerger的看法不够接近,而且它只在特定条件下创建了拷贝。

我最初的尝试如下所示,并导致了相同的IO问题:merger = PdfFileMerger()

for filename in filenames:

merger.append(filename)

merger.write(output_file_path)

查看PyPDF2源代码,我们看到append()需要传递fileobj,然后使用merge()函数,将其最后一页作为新文件位置传入。merge()使用fileobj执行以下操作(在使用PdfFileReader(fileobj)打开之前:if type(fileobj) in (str, unicode):

fileobj = file(fileobj, 'rb')

my_file = True

elif type(fileobj) == file:

fileobj.seek(0)

filecontent = fileobj.read()

fileobj = StringIO(filecontent)

my_file = True

elif type(fileobj) == PdfFileReader:

orig_tell = fileobj.stream.tell()

fileobj.stream.seek(0)

filecontent = StringIO(fileobj.stream.read())

fileobj.stream.seek(orig_tell)

fileobj = filecontent

my_file = True

我们可以看到append()选项确实接受字符串,在这样做时,假设它是一个文件路径,并在该位置创建一个文件对象。最终的结果和我们试图避免的完全一样。一个PdfFileReader()对象,在文件最终被写入之前一直保持打开文件的状态!

但是,如果我们在路径字符串传递到append()之前,将文件路径字符串的文件对象或aPdfFileReader(请参见编辑2)对象作为StringIO对象,它将自动为我们创建副本,允许Python关闭文件。

我建议使用更简单的merger.append(file(filename, 'rb')),因为其他人已经报告了PdfFileReader对象可能在内存中保持打开状态,即使在调用writer.close()之后也是如此。

希望这有帮助!

编辑:我假设您使用的是PyPDF2,而不是PyPDF。如果没有,我强烈建议您进行切换,因为PyPDF不再被维护,而作者在开发PyPDF2的过程中正式支持Phaseit。

如果由于某种原因您不能交换到PyPDF2(许可、系统限制等),那么PdfFileMerger将不可用。在这种情况下,可以重用PyPDF2的merge函数(上面提供)中的代码,以StringIO对象的形式创建文件副本,并在代码中使用它来代替file对象。

编辑2:以前使用merger.append(PdfFileReader(file(filename, 'rb')))的建议根据注释进行了更改(谢谢@Agostino)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值