假设您有个无聊的工作,将几十个PDF文档合并成一个PDF文件。 他们每个都有封面页作为第一页,但你不希望在最终结果中重复覆盖表。 即使有有很多免费的程序来组合PDF,其中许多只是合并整个文件在一起。 让我们编写一个Python程序来自定义哪些页面你想要的是组合PDF。从高层次来看,这是程序将要做的事情:
查找当前工作目录中的所有PDF文件。
对文件名进行排序,以便按顺序添加PDF。
将每个PDF的每个页面(不包括第一页)写入输出文件。
在实现方面,您的代码需要执行以下操作:
调用 os.listdir() 来查找工作目录中的所有文件,删除所有非PDF文件。
调用Python的sort()列表方法来按字母顺序排列文件名。
为输出PDF创建PdfFileWriter对象。
遍历每个PDF文件,为其创建PdfFileReader对象。
在每个PDF文件中循环遍历每个页面(第一页除外)。
将页面添加到输出PDF。
将输出PDF写入名为allminutes.pdf的文件。
对于此项目,请打开一个新的文件编辑器窗口并将其另存为 “combinePdfs.py”
Step 1:找到所有的PDF文件
首先,您的程序需要获取所有扩展名为.pdf的文件的列表
当前的工作目录并对它们进行排序。 让你的代码看起来像
以下:
在这里插入代码片
在shebang线和关于什么的描述性评论之后程序没有,这段代码导入了os和PyPDF2模块。该
os.listdir(’.’) 调用将返回当前工作中的每个文件的列表目录。 代码循环遍历此列表,并仅添加带有.pdf扩展的那些文件pdfFiles