python简单实现pdf格式转换器

或人

已于 2023-01-03 21:50:34 修改

阅读量890

点赞数 6

文章标签： python

于 2023-01-03 21:44:51 首次发布

本文链接：https://blog.csdn.net/qq_62044436/article/details/128539797

版权

依赖包：pdf2docx、os、docx、pandas

以上包可以通过如下指令安装：

pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple

pdf文件转换为docx文件，源代码如下：

from pdf2docx import Converter
import os

pdfPath = input("输入路径: ")
assert os.path.exists(pdfPath), "文件不存在！ " + str(pdfPath)
choice = input("是否给文档命名 ?(Y/N)")
if choice.upper() == 'Y':
    docName = input("输入文件名 : ") + ".docx"
else:
    # 获得用户提供的pdf的文件名
    pdfName = os.path.basename(pdfPath)
    # 获得不含后缀的文件名
    docName = os.path.splitext(pdfName)[0] + ".docx"

# 将pdf转为docx
cv = Converter(pdfPath)
# 写入地址
path = os.path.dirname(pdfPath)
cv.convert(os.path.join(path, docName), start=0, end=None)
cv.close()
print("文件创建成功!")

docx文件转换为csv文件，代码如下：

注意：由pdf转化而来的docx文件不能直接转化为csv文件，因为在转化后的文档可能会多几个空白符，或者在每一行的末尾缺失换行符，所以需要你人为调整后才能正常转换！

此外还需要注意文本数据的分隔符问题！

import docx
import os

path = input("input path: ")
assert os.path.exists(path), "文件不存在！ " + str(path)
document = docx.Document(path)
choice = input("是否给csv文件命名 ?(Y/N)")

if choice.upper() == 'Y':
    csvName = input("输入文件名 : ") + ".csv"

else:
    # 获得用户提供的docx的文件名
    docxName = os.path.basename(path)
    # 获得不含后缀的文件名
    csvName = os.path.splitext(docxName)[0] + ".csv"

f = open(csvName,'w')
for par in document.paragraphs:
    temp  =par.text
    f.write(str(par.text)+'\n')
f.close()
print("csv文件创建成功！")

csv文件转换为excel文件，代码如下：

from pandas.io.excel import ExcelWriter
import pandas as pd
import os

path = input("input path: ")
assert os.path.exists(path), "文件不存在！ " + str(path)
choice = input("是否给csv文件命名 ?(Y/N)")
if choice.upper() == 'Y':
    excelName = input("输入文件名 : ") + ".xlsx"

else:
    # 获得用户提供的docx的文件名
    csvName = os.path.basename(path)
    # 获得不含后缀的文件名
    excelName = os.path.splitext(csvName)[0] + ".xlsx"

with ExcelWriter(excelName) as ew:
# 将csv文件转换为excel文件
    dataFrame = pd.read_csv(path, encoding='gb18030')
    dataFrame.to_excel(ew, sheet_name="1", index=False)
print("excel文件创建成功!")

看到这里就点一个免费的赞吧！QwQ