Python 如何实现一键批量将 PDF 文档转 Word?

31c9335657813f8839c1ce1d3ea165d0.gif

作者 | 欣一

来源 | Python爱好者集中营

无论是在工作还是学习当中,大家都会遇到这样一个问题,将“PDF当中的内容(文本和图片)转换为Word的格式”,也就是说从只读转换成可编辑的格式。网上绝大多数的工具也都是收费的,今天小编就给大家制作了一款批量将PDF文件转换为Word的神器,使用起来也是相当的方便。

61073d12ff578cbfcb8794b7fe984eda.png

实现效果

我们首先来看一下出来的效果,如下图所示

f29e32a446af43d5bff0d8463564b0f9.gif

7441bd46081b0d7b4d1e120eb43e7c8e.png

b46364f7d9148fa98d5770d9ac639c82.png

948b6a9bfdf25eb3e0550fd61c143d5c.png

1068bcee05fb3c9cf3fe49123f262463.png

43fe82f80a721936b0a30d6afba2d2f8.png


ba81d8ddd98e9e754c344010c363d7d3.png

环境准备

用到的模块叫做pdf2docx,我们通过pip命令进行下载,如下

 
 
pip install pdf2docx

后续我们还可以为py文件打包,用到的库是pyinstaller

 
 
pip install pyinstaller


d311b1dc63f02ac22f7567280e6c9494.png

代码实现

我们先简单地实现将单个PDF文档转换成Word文档,代码如下

 
 
from pdf2docx import Converter
cv = Converter(r"pdf文件的路径")
cv.convert("test.docx", start=0,end=None)
cv.close()

那么上面的是单个PDF文件,要是涉及到是多个PDF文件,则需要用到遍历上传过来的每一个文件,用到for循环遍历

 
 
def startAction(self):
    output_path_1 = Path.joinpath(Path.home(), "Desktop")
    output_path_2 = str(output_path_1) + "\\output"
    if not os.path.exists(output_path_2):
        os.mkdir(output_path_2)


    for path_list in pdfPath_list:
        print("路径: ", path_list)
        name = path_list.split("/")[-1].split(".")[0]
        cv = Converter(path_list)
        cv.convert(output_path_2 + "\\{}.docx".format(name), start=0, end=None)
        cv.close()


    msg_box = QMessageBox(QMessageBox.Information, '完成', '提取完成', QMessageBox.Yes)
    msg_box.exec_()

上述的代码,我们首先将指定好输出的Word文档的位置,这里小编设置的是在桌面,然后通过for循环去遍历处理每一个PDF文档,当所有的步骤都完成的时候,提示我们已经完成了。

当然整个可视化界面当中还有一个上传文件的功能,代码如下

 
 
# 选择本地文件上传
def uploadFiles(self):
    global pdfPath_list  # 这里为了方便别的地方引用文件路径,将其设置为全局变量
    pdfPath_list, fileType = QFileDialog.getOpenFileNames(self.ui, "上传文件", r"路径", "*.pdf;;All Files(*)")
    # 显示所选文件的路径
    self.ui.lineEdit.setText(",".join(pdfPath_list))

整体的代码如下所示

 
 
from PySide2.QtWidgets import QApplication, QMessageBox, QFileDialog
from PySide2.QtUiTools import QUiLoader
from pdf2docx import Converter
from pathlib import Path
import os


class OCRQt:
    def __init__(self):
        self.ui = QUiLoader().load('pdf2word.ui')
        self.ui.pushButton.clicked.connect(self.uploadFiles)
        self.ui.pushButton_2.clicked.connect(self.startAction)


    def uploadFiles(self):
        ........
        ........


    def startAction(self):
        .......
        .......


if __name__ == '__main__':
    app = QApplication([])
    # 显示创建的界面
    MainWindow = OCRQt()  # 创建窗体对象
    MainWindow.ui.show()  # 显示窗体
    app.exit(app.exec_())  # 程序关闭时退出进程

185235170d6f90361547ae5dcf122fce.gif

往期回顾

迷惑行为大赏:在手中硬核「植入」芯片,只为解锁一辆车?

自从学了Pandas,妹子直呼很Nice!

亚马逊云科技的 AI 新引擎,如何助力企业应对“乌卡时代”?

为了在上海租房,我用python连夜爬了20000多条房源信息

分享
点收藏
点点赞
点在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值