如何用Python把pdf文档转成word文档

@小米椒

于 2024-07-17 16:22:14 发布

阅读量460

点赞数 3

文章标签： pdf

本文链接：https://blog.csdn.net/qq_62101254/article/details/140497718

版权

通过用Python代码把pdf文档转换成word文档，但只能简单的提取pdf文档的文字内容，对于pdf文档中的图片和表格无法提取

一、安装pdfplumber库

二、Python实现代码

import pdfplumber  
from docx import Document  
  
def pdf_to_word(pdf_path, word_path):  
    # 创建一个Word文档对象  
    doc = Document()  
  
    # 使用pdfplumber打开PDF文件  
    with pdfplumber.open(pdf_path) as pdf:  
        # 遍历PDF的每一页  
        for page in pdf.pages:  
            # 提取页面文本  
            text = page.extract_text()  
            if text:  
                # 将提取的文本添加到Word文档的新段落中  
                doc.add_paragraph(text)  
  
    # 保存Word文档  
    doc.save(word_path)  
  
# 使用示例  
pdf_path = '蝶恋花.pdf'  # 你的PDF文件路径  
word_path = 'output.docx'  # 输出Word文件路径  
pdf_to_word(pdf_path, word_path)  
  
print("PDF转换到Word完成。")

三、结果