前言
在使用文本编辑软件时经常会想将PDF转为图片或者是文档格式,但大多要么得付费要么带有一些捆绑,不如自己写一下。
这里使用了pdf2image和pdf2docx进行转换。
两个关键功能
转图片
def file2Pic():
global i, pdf_name, file_format
if pdf_name == '':
tk.messagebox.showwarning(message='请选择需要导出文件')
else:
if var == 0:
tk.messagebox.showwarning(message='请选择需要导出文件类型')
print(2)
else:
i = 0
total_file = pdf_name[:-4]
mkdir(total_file)
pages = convert_from_path(pdf_name, 500)
for page in pages:
file_name = total_file + '/' + str(i) + file_format
page.save(file_name, 'JPEG')
i += 1
counter_l.config(text='转换完成')
其中file_format为导出格式,为了图省事,没有将保存格式进行选择,而是将文件名直接按照后缀进行存储达到可以保存为jpg、bmp、png的格式。
转docx
这部分使用开源项目pdf2docx,可以在这里看到如何使用。
这个开源项目可以实现pdf2docx的几种功能为
段落及文本样式
段落对齐方式(左/右/居中/分散)及段间距
水平(自左向右)或竖直(自底向上)方向的文本
字体样式(颜色、字体、大小、粗/斜体)
文本样式(高亮、下划线、删除线、超链接)
但对列表样式的识别效果欠佳
图片
段落内嵌入型图片
衬于文本下方的浮动型图片
支持Gray/RGB/CMYK等颜色模式及透明背景图片
表格及其样式
边框样式(粗细、颜色)
单元格背景色
合并的单元格
隐藏部分边框的表格(例如三线表)
嵌套表格
支持多进程并行处理
def file2Docx():
global pdf_name
cv = Converter(pdf_name)
total_file = pdf_name[:-4]
mkdir(total_file)
docx_name = total_file + '/PDF2Docx.docx'
cv.convert(docx_name, start=0, end=None)
cv.close()
最后对gui界面进行了一个简单的绘制。基本功能可以实现,但再打开的时候是根据本机的速度来定。
这里建了一个gitee的项目仓库,希望可以得到各位的指点或共同开发。