接了一个小单,需求是:
- 用Python实现自动生成并更新Tracker表格。
- Tracker表格中有两个sheet,分别对应相同名字的文件夹,SAV是doc文件合集,每个文件夹将会有上百个文件(目前只放了几个用于测试,实际上需要录入七八百个文件),需要实现自动按照ID的顺序将信息自动录入Tracker这个excel中。
- 待提取内容部分来自表格,部分来自文本。
- 当文件夹中加入新文件时,再次运行代码可以更新excel。
字段对应关系非常简单,同名即对应。
背景如上,开始设计程序。基本思路是:首先针对单个word文档进行提取,然后加入遍历文件夹操作。
这个word涉及表格和文字,所以分别提取内容存至列表col_values。
file=Document(doc_path)
col_keys = [] # 获取列名
col_values = [] # 获取全部列值
# 添加一个去重机制
index_num = 0
fore_str = ''
for table in file.tab