使用Python将当前目录下的PDF转为docx,简单学习尝试。
#pdf2docx PDF文件转word docx
#安装库pip install pdf2docx
#尝试环境PyMuPDF-1.21.1 fire-0.5.0 fonttools-4.38.0 pdf2docx-0.5.6 python-docx-0.8.11 termcolor-2.2.0 Python 3.10.4
#pdf转docx简单尝试
import os
from pdf2docx import Converter
def pdf转docx():
# 获取当前工作目录
file_path = os.getcwd()
print('\n当前文件目录\n',file_path)
# 获取所有文件
files = os.listdir(file_path)
print('\n当前目录文件列表\n\n',files)
# 遍历所有文件
for file in files:
# 过滤目录里的缓存文件
if '~$' in file:
continue
# 过滤非pdf格式文件
if file.split('.')[-1] != 'pdf':
continue
# pdf文件
pdf_name = file_path + '\\' + file
print('\n\n将转换的pdf文件\n',pdf_name,'\n')
# docx文件名称
docx_name = file_path + '\\' + file.split('.')[0] + '