用 Python 写几行代码，一分钟搞定一天工作量，同事直呼：好家伙！_一天的工作量用编程

最新推荐文章于 2024-05-16 12:41:49 发布

拒绝戎余

最新推荐文章于 2024-05-16 12:41:49 发布

阅读量28

点赞数 17

分类专栏：程序员文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_76379671/article/details/138385776

版权

本文介绍了使用Python解析Word会议通知文档，提取学习时间、主持人、学习形式和分散内容的方法，然后将这些信息整合并写入Excel文件的过程。

摘要由CSDN通过智能技术生成

wordfile = Document(path + r'\Notice\会议通知 1.docx')
for paragraph in wordfile.paragraphs:
    print(paragraph)

文件的文字排布脉络比较清晰，基本是一句话对应一个段落，而需要的信息可以简单通过判断每句话（每段话）前几个字而明确：

    for paragraph in wordfile.paragraphs:
        if paragraph.text[0:5] == '学习时间：':
            study_time = paragraph.text[5:]
        if paragraph.text[0:4] == '主持人：':
            host = paragraph.text[4:]
        if paragraph.text[0:5] == '学习形式：':
            study_type = paragraph.text[5:]

对于学习内容的获取比较特殊，不像其他三个信息，都在一句话中，且关键字就为前几个字：

可以看到，“学习内容” 四个字和真正包含的内容分散在不同的句子中。这里简单用一个策略：

“

建立一个空列表存放，然后遍历每一段判断，如果一个字符为数字且第二个字符为中文顿号 “、” 就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可：

”

    content_lst = []
    for paragraph in wordfile.paragraphs:
        if paragraph.text[0:5] == '学习时间：':
            study_time = paragraph.text[5:]
        if paragraph.text[0:4] == '主持人：':
            host = paragraph.text[4:]
        if paragraph.text[0:5] =&