python | 简易版： pdf 转换为 word 方法

最新推荐文章于 2025-02-27 14:11:28 发布

一位代码

最新推荐文章于 2025-02-27 14:11:28 发布

阅读量1.2k

点赞数 1

分类专栏： python 文章标签： python pdf word

本文链接：https://blog.csdn.net/LHJCSDNYL/article/details/134694124

版权

python 专栏收录该内容

30 篇文章

订阅专栏

一、前言

本文利用python将pdf转换为word方法，需要用到两个第三方模块，分别是：
（1）pdfplumber，用来解析pdf文档，包括pdf的基本信息（作者、创建时间、修改时间…）及表格、文本、图片等信息，基本可以满足较为简单的格式转换功能。
（2）python-docx，可用来创建、修改word文档（.docx），提供全套的word操作，是较为常用的一个操作word的python库。
以上两者，都可以使用pip命令直接安装，具体命令如下：

pip install pdfplumber

pip install python-docx

二、pdf转换为word方法详解

以下代码块，实现提取pdf文件内容，并保存word中。
复制并运行代码，输入需要转换的pdf文档详细路径，回车即可。

import pdfplumber
from docx import Document


# 新建一个word，用来保存pdf内容
def get_newword(file_path):
    doc = Document()
    doc.save(file_path+r'\res.docx')


# 提取pdf中的所有文本,并保存到word中
def get_con(file_path):
    tem_path = '\\'.join(file_path.split("\\")[:-1])
    # 新建一个word
    get_newword(tem_path)
    doc = Document(tem_path+r'\res.docx')
    with pdfplumber.open(file_path) as pdf:
        for i, page in enumerate(pdf.pages):  # 默认取pdf中所有存在页
            con = page.extract_text()
            doc.add_paragraph(con)
            print('-----------分割线,第%d页-----------' % (int(i) + 1))
            doc.save(tem_path+r'\res.docx')
            print('保存成功第%d页' % (int(i) + 1))


if __name__ == "__main__":
    # 输入文件路径全称，如：E:\pytest\pdfp\data\test.pdf
    print(r'文件路径示例：E:\pytest\pdfp\data\test.pdf')
    file_path = input('请输入需要转化的pdf文件路径：')
    get_con(file_path)

（一）上述代码释义、说明

（1）pdfplumber提取pdf文本内容方法
方法：extract_text()，返回一个字符串，其中包含页面中的所有文本。如果只想提取页面的一部分文本，可以将提取的区域作为参数传递给extract_text() 方法。
需要注意的是： extract_text()方法，提取的是pdf页面中的所有文本内容，包括表格中的文本，但是不会保留表格的格式，只是纯文本内容。且不会保存pdf中的图片。
（2）python-docx基础用法
上述代码主要使用了写入段落的方法：