python将目录下的pdf转为word

需要安装PyMuPDF库 pip install pymupdf

可以使用以下Python代码将指定目录下的所有PDF文件转换为相应的Word文档:

import fitz
import os

def pdf_to_word(pdf_path, output_dir):
    # 打开PDF文件
    pdf_document = fitz.open(pdf_path)
    
    # 迭代处理每一页
    for page_num in range(pdf_document.page_count):
        page = pdf_document[page_num]
        
        # 以相同的名字和路径创建docx文件
        new_word_path = os.path.join(output_dir, f"{os.path.splitext(os.path.basename(pdf_path))[0]}_page{page_num + 1}.docx")
        
        # 转换为word格式
        page.get_text("text")  # 获取文本内容
        text_page = page.get_text("text")
        
        with open(new_word_path, "w", encoding="utf-8") as word_file:
            word_file.write(text_page)
    
    # 关闭PDF文件
    pdf_document.close()

# 指定的目录和输出目录
pdf_directory = "path/to/pdf_files_directory"
output_directory = "path/to/output_word_files"

# 处理该目录下的所有PDF文件
for filename in os.listdir(pdf_directory):
    if filename.endswith(".pdf"):
        pdf_path = os.path.join(pdf_directory, filename)
        pdf_to_word(pdf_path, output_directory)

请确保替换代码中的"path/to/pdf_files_directory"为存储PDF文件的目录路径,"path/to/output_word_files"为将存储Word文件的目录路径。

这段代码会遍历指定目录并查找以“.pdf”结尾的文件,然后将每个PDF文件转换为对应的Word文档。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值