python真的可以减少工作强度_用Python写几行代码，一分钟搞定一天工作量，同事直呼：好家伙！...

小缸和阿灿

于 2021-02-04 07:58:37 发布

阅读量181

点赞数

文章标签： python真的可以减少工作强度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33190667/article/details/113673652

版权

前几天有一个读者说最近要整理几千份文件，头都要整秃了，不知道能不能用Python解决，我们来看一下，你也可以思考一下。由于涉及文件私密所以具体内容已做脱敏处理。

大概是这样，一个文件夹下有多份会议通知信息(本文以 7 份文件为例)

213868512_2_20210124020117569

每一份通知打开格式基本类似，如下所示👇

213868512_3_20210124020117679

现在需要将每份会议文档中的学习时间、学习内容、学习形式、主持人四项关键信息提取出来，整理到 Excel 表格中：

213868512_4_20210124020117851

在他真实需求中，会议通知四年积累下来有快 1000 份(四年开了这么多次会也是很厉害...)，用人力挨个打开文件并录到 Excel 中工作量实在太大。

好家伙，这种重复的无聊工作，不就是一份非常适合交给 Python 的自动化工作吗？我不允许我的粉丝还不会！

下面我们来看看如何用Python解决这个问题，主要将涉及：openpyxl 写入 Excel 文件

python-docx 读取 Word 文件

glob 批量获取文件路径

为了简化上面的需求，本文中需要获取的会议通知文件一共 7 个，分别命名为会议通知1.docx 会议通知2.docx... 会议通知7.docx，存放在 Notice 文件夹下。输出的目标 Excel 文件命名为 Meeting_temp.xlsx

基本逻辑

写代码之前都先明确完整的问题需要分为几个小步骤实现。从需求中我们大概可以将代码分为以下几步：“获取会议通知 Notice 文件夹下的所有文件；

解析每一份 Word 文件，获取需要的四个信息，输出到 Excel 中；

保存 Excel 文件”

有了逻辑就有了写代码的思路了。第 1 步可以由 glob 库完成，后面两步就是操作 Word 的 python-docx 库和操作 Excel 的 openpyxl 库的交互协作了。

这两个库我们都有说过，如果你不熟悉，一定要先阅读下面的文章！

代码实现

首先导入需要的库：

from docx import Document

from openpyxl import load_workbook

import glob

将模板 Excel 读取进程序：path = r'C:\Users\xxx' # 路径为会议通知文件夹和 Excel 模板所在的位置，可按实际情况更改

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

写任何批处理的代码之前都建议先写一下单次操作的代码，因此我们先完成对会议通知 1.docx 文件的解析，确保无误。现在对于文档的结构和关键信息的位置尚不明确，可以先将 Word 以段落 Paragraph 为单位输出观察：

wordfile = Document(path + r'\Notice\会议通知 1.docx')

for paragraph in wordfile.paragraphs:

print(paragraph)

213868512_5_20210124020117991

文件的文字排布脉络比较清晰，基本是一句话对应一个段落，而需要的信息可以简单通过判断每句话(每段话)前几个字而明确：for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间：':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人：':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式：':

study_type = paragraph.text[5:]

对于学习内容的获取比较特殊，不像其他三个信息，都在一句话中，且关键字就为前几个字：

213868512_6_20210124020118163

可以看到，“学习内容” 四个字和真正包含的内容分散在不同的句子中.这里简单用一个策略：“

建立一个空列表存放，然后遍历每一段判断，如果一个字符为数字且第二个字符为中文顿号 “、” 就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可：”

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间：':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人：':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式：':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

完成了解析 Word 文件之后，就需要把内容输出的 Excel 文件中了。

简单来说，就是将上面代码获取到的几个元素组合成一个列表，通过 sheet.append(list) 的方法写入 Excel 文件中：number = 0 # 全局中设置一个变量用于计数，做为序号输出

wordfile = Document(path + r'\Notice\会议通知 1.docx')

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间：':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人：':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式：':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

单个文件解析完，用 glob 改完获取文件夹下全部文件，建立循环逐个解析就能完成本需求，当然最后记得保存 Excel 文件。

完整代码如下👇

from docx import Document

from openpyxl import load_workbook

import glob

path = r'C:\Users\xxx'

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

number = 0

for file in glob.glob(path + r'\Notice\*.docx'):

wordfile = Document(file)

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间：':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人：':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式：':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

workbook.save(path + r'\Meeting_notice.xlsx')

213868512_7_20210124020118272

核心也不过三十行代码，总共不过三秒就搞定了！ 213868512_8_20210124020118633

小缸和阿灿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python真的可以减少工作强度_用Python写几行代码，一分钟搞定一天工作量，同事直呼：好家伙！...

前几天有一个读者说最近要整理几千份文件，头都要整秃了，不知道能不能用Python解决，我们来看一下，你也可以思考一下。由于涉及文件私密所以具体内容已做脱敏处理。大概是这样，一个文件夹下有多份会议通知信息(本文以 7 份文件为例)每一份通知打开格式基本类似，如下所示????现在需要将每份会议文档中的学习时间、学习内容、学习形式、主持人四项关键信息提取出来，整理到 Excel 表格中：在他真实需求中，会...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。