用python把pdf文件转换为word文件 | pdf2docx 安装 + 快速使用

最新推荐文章于 2025-05-29 14:04:20 发布

Chat blanc

最新推荐文章于 2025-05-29 14:04:20 发布

阅读量1.5w

点赞数 9

CC 4.0 BY-SA版权

分类专栏： pdf转word 文章标签： python

本文链接：https://blog.csdn.net/chatblanc/article/details/124481784

pdf转word 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了Python库pdf2docx的安装与使用方法。在安装过程中，遇到因PyMuPDF版本不兼容导致的错误，解决方案是下载特定版本的PyMuPDF.whl文件进行本地安装。在使用pdf2docx时，提供了通过代码和命令行进行PDF转DOCX的基本操作，包括指定转换的页面范围。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、pdf2docx介绍

pdf2docx是一个 Python 库，用于从 PDF 中提取数据，PyMuPDF使用规则解析布局，并使用python-docx.

二、pdf2docx的安装

为什么要讲这个安装呢？其实很大部分原因是因为自己弄了好几天没安装下来，今天突然被导师指点了一下开窍了，所以特此在这里总结一下这个库的安装。
常规的安装：pip install pdf2docx
不常规的安装：为什么要说不常规呢，其实主要还是跟自己的py解释器有很大的关系了。比如说我的py解释器版本为3.6.5，在安装pdf2docx这个库的时候出现了以下报错👇

这个报错是因为在安装pdf2docx这个库的时候他会捆绑下载安装其他的一些库，然后安装到PyMuPDF这个库的时候它会自动下载该模块的最高版本，可是在这个库的最高版本里面并没有支持py3.6.5版本解释器的安装包，所以就会在这里出现报错。要解决该报错只需要去到https://pypi.org/project/PyMuPDF/1.19.3/#files这个网站下载对应电脑系统的.whl版本（其实也就是降版本下载）并且进行本地安装，再安装pdf2docx这个库即可。

三、pdf2docx快速使用

方法一：

from pdf2docx import Converter

pdf_file = './xxxx.pdf'
docx_file = './xxxx.docx'
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=5)
cv.close()

其中的pdf_file是pdf文件，docx_file是word文件，start是pdf转换的起始页，end是结束页。这里如果不传start和end的话默认就是从第一页转换到最后一页。也可以通过pages方法确定转换页数，方法为：cv.convert(docx_file, pages=[1, 3, 5])