有小伙伴手里有很多简历,他想要根据简历的学校属性对简历进行分类,之后重命名为“姓名+学校+学校属性”的形式,并根据学历分别放入不同文件夹,但他只能提供doc格式的简历而python-docx包只能处理docx格式的文件。以下是处理过程:
第一步:批量把doc文件转换为docx格式
# coding:utf-8
from win32com import client as wc
import os
word = wc.Dispatch('Word.Application')
n = 0
for file_name in os.listdir("C:\\aaa\\resume"): ### 批量读入文件名称
### 去除临时文件
if "~$" in file_name:
pass
### 避免返回找不到文件的错误
elif os.path.exists("C:\\aaa\\resume\\" + file_name) is False:
pass
else:
doc = word.Documents.Open("C:\\aaa\\resume\\" + file_name) # 提取doc文件中的内容
### 取简历主人姓名
resume = file_name.split('_')
resume_name_0 = resume[3]
# print(resume_name_0)
resume_name = resume_name_0[0:resume_name_0.index(".")]
# print(resume_name)
### 将文件以docx的格式保存
resume_docx_name = resume_name + ".docx"
doc.SaveAs("