利用python提取word中信息,并保存到excel
- 今天突然接到一个小任务,是需要整理好公司同事写的论文,论文的格式是固定的,需要提取论文名称,作者这两个关键信息并保存到excel中。论文的固定格式如下:首页开始是标题,第二行是作者。现在这种格式的论文可能有几百篇,如果要对论文的名称和作者进行统计,采用人工复制黏贴则费时费力。因此,写了一个小程序。
程序如下:
from docx import Document
from openpyxl import Workbook
import os
from win32com import client as wc
wb = Workbook() #创建excel表格
sheet = wb.active #激活工作表
header = ['序号','文件标题','作者'] #创建表头
sheet.append(header) #将创建表头添加进工作表
##.doc文件不能处理,需要先转为了.docx
def save_doc_to_docx(