依赖包:pdf2docx、os、docx、pandas
以上包可以通过如下指令安装:
pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple
pdf文件转换为docx文件,源代码如下:
from pdf2docx import Converter
import os
pdfPath = input("输入路径: ")
assert os.path.exists(pdfPath), "文件不存在! " + str(pdfPath)
choice = input("是否给文档命名 ?(Y/N)")
if choice.upper() == 'Y':
docName = input("输入文件名 : ") + ".docx"
else:
# 获得用户提供的pdf的文件名
pdfName = os.path.basename(pdfPath)
# 获得不含后缀的文件名
docName = os.path.splitext(pdfName)[0] + ".docx"
# 将pdf转为docx
cv = Converter(pdfPath)
# 写入地址
path = os.path.dirname(pdfPath)
cv.convert(os.path.join(path, docName), start=0, end=None)
cv.close()
print("文件创建成功!")
docx文件转换为csv文件,代码如下:
注意:由pdf转化而来的docx文件不能直接转化为csv文件,因为在转化后的文档可能会多几个空白符,或者在每一行的末尾缺失换行符,所以需要你人为调整后才能正常转换!
此外还需要注意文本数据的分隔符问题!
import docx
import os
path = input("input path: ")
assert os.path.exists(path), "文件不存在! " + str(path)
document = docx.Document(path)
choice = input("是否给csv文件命名 ?(Y/N)")
if choice.upper() == 'Y':
csvName = input("输入文件名 : ") + ".csv"
else:
# 获得用户提供的docx的文件名
docxName = os.path.basename(path)
# 获得不含后缀的文件名
csvName = os.path.splitext(docxName)[0] + ".csv"
f = open(csvName,'w')
for par in document.paragraphs:
temp =par.text
f.write(str(par.text)+'\n')
f.close()
print("csv文件创建成功!")
csv文件转换为excel文件,代码如下:
from pandas.io.excel import ExcelWriter
import pandas as pd
import os
path = input("input path: ")
assert os.path.exists(path), "文件不存在! " + str(path)
choice = input("是否给csv文件命名 ?(Y/N)")
if choice.upper() == 'Y':
excelName = input("输入文件名 : ") + ".xlsx"
else:
# 获得用户提供的docx的文件名
csvName = os.path.basename(path)
# 获得不含后缀的文件名
excelName = os.path.splitext(csvName)[0] + ".xlsx"
with ExcelWriter(excelName) as ew:
# 将csv文件转换为excel文件
dataFrame = pd.read_csv(path, encoding='gb18030')
dataFrame.to_excel(ew, sheet_name="1", index=False)
print("excel文件创建成功!")
看到这里就点一个免费的赞吧!QwQ