python简单实现pdf格式转换器

依赖包:pdf2docx、os、docx、pandas

以上包可以通过如下指令安装:

pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple

pdf文件转换为docx文件,源代码如下:

from pdf2docx import Converter
import os

pdfPath = input("输入路径: ")
assert os.path.exists(pdfPath), "文件不存在! " + str(pdfPath)
choice = input("是否给文档命名 ?(Y/N)")
if choice.upper() == 'Y':
    docName = input("输入文件名 : ") + ".docx"
else:
    # 获得用户提供的pdf的文件名
    pdfName = os.path.basename(pdfPath)
    # 获得不含后缀的文件名
    docName = os.path.splitext(pdfName)[0] + ".docx"

# 将pdf转为docx
cv = Converter(pdfPath)
# 写入地址
path = os.path.dirname(pdfPath)
cv.convert(os.path.join(path, docName), start=0, end=None)
cv.close()
print("文件创建成功!")

docx文件转换为csv文件,代码如下:

注意:由pdf转化而来的docx文件不能直接转化为csv文件,因为在转化后的文档可能会多几个空白符,或者在每一行的末尾缺失换行符,所以需要你人为调整后才能正常转换!

此外还需要注意文本数据的分隔符问题!

import docx
import os

path = input("input path: ")
assert os.path.exists(path), "文件不存在! " + str(path)
document = docx.Document(path)
choice = input("是否给csv文件命名 ?(Y/N)")

if choice.upper() == 'Y':
    csvName = input("输入文件名 : ") + ".csv"

else:
    # 获得用户提供的docx的文件名
    docxName = os.path.basename(path)
    # 获得不含后缀的文件名
    csvName = os.path.splitext(docxName)[0] + ".csv"

f = open(csvName,'w')
for par in document.paragraphs:
    temp  =par.text
    f.write(str(par.text)+'\n')
f.close()
print("csv文件创建成功!")

csv文件转换为excel文件,代码如下:

from pandas.io.excel import ExcelWriter
import pandas as pd
import os

path = input("input path: ")
assert os.path.exists(path), "文件不存在! " + str(path)
choice = input("是否给csv文件命名 ?(Y/N)")
if choice.upper() == 'Y':
    excelName = input("输入文件名 : ") + ".xlsx"

else:
    # 获得用户提供的docx的文件名
    csvName = os.path.basename(path)
    # 获得不含后缀的文件名
    excelName = os.path.splitext(csvName)[0] + ".xlsx"

with ExcelWriter(excelName) as ew:
# 将csv文件转换为excel文件
    dataFrame = pd.read_csv(path, encoding='gb18030')
    dataFrame.to_excel(ew, sheet_name="1", index=False)
print("excel文件创建成功!")

看到这里就点一个免费的赞吧!QwQ

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值