python提取列表中文本_Python提取docx文档中例题、插图、表格清单

from docx import Document

import re

result = {'li':[], 'fig':[], 'tab':[], 'tuozhan':[]}

doc = Document(r'C:\test.docx')

for p in doc.paragraphs:

t = p.text #获取每一段的文本

if re.match('例\d+-\d+ ', t):

result['li'].append(t)

elif re.match('图\d+-\d+ ', t):

result['fig'].append(t)

elif re.match('表\d+-\d+ ', t):

result['tab'].append(t)

print('='*30)

for li in result['li']:

print(li)

print('='*30)

for fig in result['fig']:

print(fig)

print('='*30)

for tab in result['tab']:

print(tab)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值