- 前两天帮助朋友开发了一个简易的PDF文件转为Word文件工具,这篇文章也将代码分享出来。
- 我也将【PDF文件转为Word文件工具】打包成了exe文件,在win电脑上可以直接打开使用。
工具上传到了网盘。可以通过搜索公众号【软件测试必备技能】或 滑到文章底部公众号卡片扫描二维码,关注公众号,发送【PDF】即可免费获得。
一、完整代码
from pdf2docx import Converter
import os
def pdf_to_docx(pdf_path, save_path):
"""
将PDF转换为Word
:param pdf_path: PDF文件地址
:param save_path: 转换后的文件保存地址
:return: 转换后的Word文件地址
"""
filename = os.path.basename(pdf_path)
pdf_path_name, ext = os.path.splitext(filename)
word_path = save_path + '/' + pdf_path_name + '.docx'
pdf = Converter(pdf_path)
pdf.convert(word_path, start=0, end=None)
pdf.close()
return word_path
if __name__ == '__main__':
pdf_file = r"D:\test.pdf"
save_file = r"D:"
word_file = pdf_to_docx(pdf_file, save_file)
print("转换成功:", word_file)
- 运行之后的,就会生成一个.docx后缀的Word文档
二、代码解释
- 脚本的核心pdf2docx 模块。
- pdf2docx 模块可以用来将 PDF 文件转换成 Word 文档。它可以处理包含复杂布局和格式的 PDF 文件,并保留原始的字体、颜色、大小和格式等属性。
from pdf2docx import Converter # 导入模块
- 运行脚本之前需要先安装模块,可以使用指令安装
pip3 install pdf2docx
- 再使用pdf2docx模块,写成方法
def pdf_to_docx(pdf_path, save_path): """ 将PDF转换为Word :param pdf_path: PDF文件地址 :param save_path: 转换后的文件保存地址 :return: 转换后的Word文件地址 """ filename = os.path.basename(pdf_path) # 获得路径中的PDF文件名称 pdf_path_name, ext = os.path.splitext(filename) # 获得去除后缀后的文件名称 word_path = save_path + '/' + pdf_path_name + '.docx' # 组合Word文件保存路径 pdf = Converter(pdf_path) # 指定PDF文件路径 pdf.convert(word_path, start=0, end=None) # 指定输出的word文件路径,以及转换的页码范围 pdf.close() # 关闭转换器 return word_path
- 最后是方法调用部分
if __name__ == '__main__': pdf_file = r"D:\test.pdf" # 需要转换的PDF文件 save_file = r"D:" # Word文件保存的位置 word_file = pdf_to_docx(pdf_file, save_file) #调用方法,获得 print("转换成功:", word_file)
————————————————————————————————————————————
- 本人运营的博客同名公众号【软件测试必备技能】不定期会上传测试相关资料,有需要可以前往领取。
【PDF文件转为Word文件工具】工具上传到了网盘。可以通过搜索公众号【软件测试必备技能】或 滑到文章底部公众号卡片扫描二维码,关注公众号,发送【PDF】即可免费获得。