Python-PDF与word批量转换
本节介绍基于Python的PDF批量转word
1.安装库
基于pdf2docx
库,基于规则解析章节、段落、表格、图片、文本等布局及样式,可实现PDF文件内容与样式的转换;需要Python3.6及以上版本;可用于Windows或者macOS,需要安装MS word。
- GitHub-pdf2docx:https://github.com/dothinking/pdf2docx
pip install docx2pdf -i https://pypi.tuna.tsinghua.edu.cn/simple
2.批量PDF转word
主要是批量读取文件夹下的PDF文件,然后通过pdf2docx
中的Converter
函数实现到word的转换,代码如下:
#批量pdf转word
from pdf2docx import Converter
import os
path = 'E:/DATA_pro/py/word_pdf/pdf2docx/'
# 定义空list,存放文件夹中的文件名
files = []
for file in os.listdir(path):
if file.endswith(".pdf"):
files.append(path+file)
for file in files:
a = Converter(file)
a.convert(file.split('.')[0]+'.docx') #创建生成的docx文件和文件名的文件名
a.close()
print(file+'转换成功')
3.总结
通过Python完成PDF文件的批量转换,对于日常工作来说帮助很大。