python合并多个pdf_pypdf将多个pdf文件合并到一个pd中-CSDN博客

本文链接：https://blog.csdn.net/weixin_39921131/article/details/114964821

我最近遇到了一个完全相同的问题，所以我深入PyPDF2，看看发生了什么，以及如何解决它。

注意：我假设filename是格式良好的文件路径字符串。假设我所有的代码都是一样的

简短的回答

使用PdfFileMerger()类而不是PdfFileWriter()类。我已经尽力提供以下内容以尽可能接近您的内容：from PyPDF2 import PdfFileMerger, PdfFileReader

[...]

merger = PdfFileMerger()

for filename in filenames:

merger.append(PdfFileReader(file(filename, 'rb')))

merger.write("document-output.pdf")

长长的答案

使用PdfFileReader和PdfFileWriter的方法是保持每个文件打开，并最终导致Python生成IOError 24。更具体地说，当您将页面添加到PdfFileWriter时，您将在打开的PdfFileReader中添加对该页面的引用(因此，如果您关闭该文件，将出现注意到的IO错误)。Python检测到文件仍然被引用，并且不会执行任何垃圾收集/自动关闭文件，尽管重新使用了文件句柄。它们一直保持打开状态，直到不再需要访问它们，这在代码中的output.write(outputStream)处。

要解决此问题，请在内容的内存中创建副本，并允许关闭文件。在我通过PyPDF2代码进行的冒险中，我注意到PdfFileMerger()类已经有了这个功能，所以我没有重新发明轮子，而是选择使用它。不过，我了解到，我最初对PdfFileMerger的看法不够接近，而且它只在特定条件下创建了拷贝。

我最初的尝试如下所示，并导致了相同的IO问题：merger = PdfFileMerger()

for filename in filenames:

merger.append(filename)

merger.write(output_file_path)

查看PyPDF2源代码，我们看到append()需要传递fileobj，然后使用merge()函数，将其最后一页作为新文件位置传入。merge()使用fileobj执行以下操作(在使用PdfFileReader(fileobj)打开之前：if type(fileobj) in (str, unicode):

fileobj = file(fileobj, 'rb')

my_file = True

elif type(fileobj) == file:

fileobj.seek(0)

filecontent = fileobj.read()

fileobj = StringIO(filecontent)

my_file = True

elif type(fileobj) == PdfFileReader:

orig_tell = fileobj.stream.tell()

fileobj.stream.seek(0)

filecontent = StringIO(fileobj.stream.read())

fileobj.stream.seek(orig_tell)