1.1 项目简介
解决痛点:
解决大众在日常生活/工作中都可能会遇到的问题,有时候需要将PDF文档转换为WORD文档,网上一搜一大堆,标题免费,实际呵呵。并且将文件上传到网上,也不安全,特别是敏感机密文件,更需要注意,决不能随便就上传,谁知道传到哪去,干啥了。
解决思路:
我查了些资料,说是通过Python的相关包就可以实现转换需求,资料挺多的,就是不知道真假,现在我去尝试下。要是实现了,我免费,哈哈哈。
1.2 项目代码
# pip install pdf2docx #安装依赖库
from pdf2docx import Converter
pdf_file = r'C:\Users\Administrator\Desktop\XXX.pdf' # 源文件路径
docx_file = r'C:\Users\Administrator\Desktop\XXX.docx' # 转换后的文件路径
# convert pdf to docx
cv = Converter(pdf_file) # 开始转换
cv.convert(docx_file, start=0, end=None)
cv.close() # 关闭
代码说简单吧,其实确实也很简单(废话文学。。)
1.运行前安装下依赖库pip install pdf2docx
2.pdf_file:指定原文件路径,这里需要填绝对路径,不要问我为啥。
3.docx_file:转换后的文件名称和路径,看你想放哪里了。
项目特点:
1.可识别PDF中的表格内容,并高度还原;
2.文档页数较大时(亲测500页文档),也会成功转换,等待时间不算很久;
3.代码极简;
1.3 成果展示