【代码学习】批量提取论文(pdf)的第一页

使用场景

软件学报论文录用的收尾工作中,需要提交所有参考文献首页的电子版压缩包(以文献序号作为文件名),也就是说,我一篇综述论文90+篇文献,需要逐一找到这些文献的pdf原版(现存电脑中的已经被我批注过了),然后逐一提取出pdf的第一页,这两件事情中,第一件事情较为复杂(因为所需论文的发表期刊/会议需要与引用一致),而第二件更简单且更耗时,所以付诸于程序

python批量提取pdf的第一页

from PyPDF2 import PdfFileReader, PdfFileWriter
import os

def pdf_split_3(pdf_dir, output_dir, begin_idx, end_idx):

    for i in range(begin_idx, end_idx+1): # 所有要遍历的pdf文件
        pdf_input = os.path.join(pdf_dir, '{}.pdf'.format(i))
        pdf_output = os.path.join(output_dir, '{}.pdf'.format(i))
        with open(pdf_input, 'rb') as open_pdf:
            pdf_reader = PdfFileReader(open_pdf)
            pdf_writer = PdfFileWriter()
            pdf_writer.addPage(pdf_reader.getPage(0))

            with open(pdf_output, 'ab') as out:
                pdf_writer.write(out)

if __name__ == '__main__':
    pdf_dir = '/data4/wangyan/pdf' # 所有pdf文件所在目录,默认其中的文件按照begin_idx到end_idx命名的,如1.pdf
    output_dir = '/data4/wangyan/pdf_firstpage' # 所有pdf第一页的计划输出目录
    begin_idx = 1 # 第一篇文献序号
    end_idx = 92 # 最后一篇文献序号
    pdf_split_3(pdf_dir, output_dir, begin_idx, end_idx)
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
您可以使用Python的PyPDF2库来实现这个功能。具体步骤如下: 1. 安装PyPDF2库:可以使用pip install PyPDF2命令进行安装。 2. 编写Python脚本,实现批量删除多个PDF最后两页。以下是示例代码: ```python import os from PyPDF2 import PdfFileReader, PdfFileWriter # 遍历指定目录下的所有PDF文件 def batch_delete_last_two_pages(path): for filename in os.listdir(path): if filename.endswith('.pdf'): abs_path = os.path.join(path, filename) with open(abs_path, 'rb') as f: # 读取PDF文件 pdf_reader = PdfFileReader(f) # 创建一个新的PDF文件 pdf_writer = PdfFileWriter() # 获取PDF文件的总页数 total_pages = pdf_reader.getNumPages() # 将PDF文件的前面的页添加到新的PDF文件中 for i in range(total_pages-2): pdf_writer.addPage(pdf_reader.getPage(i)) # 保存新的PDF文件 with open(abs_path, 'wb') as f: pdf_writer.write(f) if __name__ == '__main__': path = 'pdf_files' batch_delete_last_two_pages(path) ``` 在上述代码中,batch_delete_last_two_pages()函数会遍历指定目录下的所有PDF文件,并将每个PDF文件的前面的页添加到一个新的PDF文件中,最后覆盖原有的PDF文件。其中,total_pages变量表示PDF文件的总页数,range(total_pages-2)表示从第0页到倒数第三页(即删除了最后两页)。 3. 运行Python脚本,实现批量删除多个PDF最后两页。将上述代码保存为一个Python脚本文件,如delete_last_two_pages.py,并在终端中执行命令python delete_last_two_pages.py即可。其中,path变量表示PDF文件所在的目录路径。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值