Python提取Word文件中的目录标题保存为Excel文件

使用Python的python-docx模块,将Word文件中的三级标题导出到Excel。涉及安装、卸载docx包的问题,以及代码实现过程。
摘要由CSDN通过智能技术生成
from docx import Document
from openpyxl import Workbook
from openpyxl.styles import Alignment, Border, borders, colors,Side

# 原始word文件和要生成的Excel文件
fn_word = 'E:\\Desktop\\提取章节标题.docx'
fn_excel = fn_word[:-5] + '2.xlsx'

# 创建空白Excel文件,获取第一个空白工作表
wb = Workbook()
ws = wb.worksheets[0]
# 添加表头
ws.append(['一级目录','二级目录','三级目录'])


first2,first3 = 1,1
# 遍历word文件中的所有段落文本
for p in Document(fn_word).paragraphs:
    # 删除段落文本两侧的空白字符
    txt = p.text.rstrip()
    # 直接跳过空行
    if not txt:
        continue

    # 添加为一级标题
    if p.style.name == 'Heading 1':
        first2 = 1
        print(p.text)
        ws.append([txt,'',''])
    # 添加为二级标题
    elif p.style.name == 'Heading 2':
        print(p.text)
        if first2==1:
              # 第一个二级目录,不添加新行
              # 直接和一级目录写在同一行
            #print(txt)
            list(ws.rows
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值