python提取word文档的内容，并保存至excel文档

最新推荐文章于 2024-09-25 20:42:48 发布

l1935506398

最新推荐文章于 2024-09-25 20:42:48 发布

阅读量970

点赞数

文章标签： python

本文链接：https://blog.csdn.net/l1935506398/article/details/131211802

版权

本文档介绍如何使用Python从Word文档中提取以#和日期开头的段落，并将它们分别保存到Excel的两个列中。

摘要由CSDN通过智能技术生成

一、前言

部门接到一个新需求，要求根据客户提供的文档，提取相关信息（如下图所示）

以#开头的段落保存在excel文档第一列

以日期开头的段落保存在excel文档第二列

代码如下

import re
import xlsxwriter

from docx import Document       #除了需要安装docx模块还需安装python-docx模块，否则会报错的
doc=Document("C:/Users/SR/IdeaProjects/a/src/main/resources/1.docx")    #打开word文档

for p in doc.paragraphs:
    if p.style.name=='Heading 3':
        print(p.text)
#提取3级标题，并打印
for p in doc.paragraphs:
    if re.match("^Heading \d+$",p.style.name):
        e = p.text
        with open('log.txt', mode='a', encoding='utf-8') as f:
            print(e, file=f)