如何用Python把pdf文档转成word文档

通过用Python代码把pdf文档转换成word文档,但只能简单的提取pdf文档的文字内容,对于pdf文档中的图片和表格无法提取

一、安装pdfplumber库

二、Python实现代码

import pdfplumber  
from docx import Document  
  
def pdf_to_word(pdf_path, word_path):  
    # 创建一个Word文档对象  
    doc = Document()  
  
    # 使用pdfplumber打开PDF文件  
    with pdfplumber.open(pdf_path) as pdf:  
        # 遍历PDF的每一页  
        for page in pdf.pages:  
            # 提取页面文本  
            text = page.extract_text()  
            if text:  
                # 将提取的文本添加到Word文档的新段落中  
                doc.add_paragraph(text)  
  
    # 保存Word文档  
    doc.save(word_path)  
  
# 使用示例  
pdf_path = '蝶恋花.pdf'  # 你的PDF文件路径  
word_path = 'output.docx'  # 输出Word文件路径  
pdf_to_word(pdf_path, word_path)  
  
print("PDF转换到Word完成。")

三、结果

 

运行代码成功后,在同一目录下得到一个output的word的文件 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值