我最近遇到了一个完全相同的问题,所以我深入PyPDF2,看看发生了什么,以及如何解决它。
注意:我假设filename是格式良好的文件路径字符串。假设我所有的代码都是一样的
简短的回答
使用PdfFileMerger()类而不是PdfFileWriter()类。我已经尽力提供以下内容以尽可能接近您的内容:from PyPDF2 import PdfFileMerger, PdfFileReader
[...]
merger = PdfFileMerger()
for filename in filenames:
merger.append(PdfFileReader(file(filename, 'rb')))
merger.write("document-output.pdf")
长长的答案
使用PdfFileReader和PdfFileWriter的方法是保持每个文件打开,并最终导致Python生成IOError 24。更具体地说,当您将页面添加到PdfFileWriter时,您将在打开的PdfFileReader中添加对该页面的引用(因此,如果您关闭该文件,将出现注意到的IO错误)。Python检测到文件仍然被引用,并且不会执行任何垃圾收集/自动关闭文件,尽管重新使用了文件句柄。它们一直保持打开状态,直到不再需要访问它们,这在代码中的output.write(outputStream)处。
要解决此问题,请在内容的内存中创建副本,并允许关闭文件。在我通过PyPDF2代码进行的冒险中,我注意到PdfFileMerger()类已经有了这个功能,所以我没有重新发明轮子,而是选择使用它。不过,我了解到,我最初对PdfFileMerger的看法不够接近,而且它只在特定条件下创建了拷贝。
我最初的尝试如下所示,并导致了相同的IO问题:merger = PdfFileMerger()
for filename in filenames:
merger.append(filename)
merger.write(output_file_path)
查看PyPDF2源代码,我们看到append()需要传递fileobj,然后使用merge()函数,将其最后一页作为新文件位置传入。merge()使用fileobj执行以下操作(在使用PdfFileReader(fileobj)打开之前:if type(fileobj) in (str, unicode):
fileobj = file(fileobj, 'rb')
my_file = True
elif type(fileobj) == file:
fileobj.seek(0)
filecontent = fileobj.read()
fileobj = StringIO(filecontent)
my_file = True
elif type(fileobj) == PdfFileReader:
orig_tell = fileobj.stream.tell()
fileobj.stream.seek(0)
filecontent = StringIO(fileobj.stream.read())
fileobj.stream.seek(orig_tell)
fileobj = filecontent
my_file = True
我们可以看到append()选项确实接受字符串,在这样做时,假设它是一个文件路径,并在该位置创建一个文件对象。最终的结果和我们试图避免的完全一样。一个PdfFileReader()对象,在文件最终被写入之前一直保持打开文件的状态!
但是,如果我们在路径字符串传递到append()之前,将文件路径字符串的文件对象或aPdfFileReader(请参见编辑2)对象作为StringIO对象,它将自动为我们创建副本,允许Python关闭文件。
我建议使用更简单的merger.append(file(filename, 'rb')),因为其他人已经报告了PdfFileReader对象可能在内存中保持打开状态,即使在调用writer.close()之后也是如此。
希望这有帮助!
编辑:我假设您使用的是PyPDF2,而不是PyPDF。如果没有,我强烈建议您进行切换,因为PyPDF不再被维护,而作者在开发PyPDF2的过程中正式支持Phaseit。
如果由于某种原因您不能交换到PyPDF2(许可、系统限制等),那么PdfFileMerger将不可用。在这种情况下,可以重用PyPDF2的merge函数(上面提供)中的代码,以StringIO对象的形式创建文件副本,并在代码中使用它来代替file对象。
编辑2:以前使用merger.append(PdfFileReader(file(filename, 'rb')))的建议根据注释进行了更改(谢谢@Agostino)。