python读取word文件提取文本章节标题

tudoubz

已于 2024-04-28 14:56:49 修改

阅读量1.1k

点赞数 1

文章标签： python word

于 2024-04-19 09:13:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tudoubz/article/details/137949887

版权

from docx import Document   
import re 
doc=Document('D:\\lawText\\text.docx')########所存的word文件路径
extracted_titles = [] 
########正则法
pattern = re.compile(r'^第[\d一二三四五六七八九十十一百千万亿]+[章节][\u4e00-\u9fa5　\s]*$')

文件读取

#####看一下文本内容
full_text = []  
for para in doc.paragraphs:  
    full_text.append(para.text)  
full_text

#######提取第几章标题
for para in doc.paragraphs:  
    # 使用正则表达式查找匹配项  
    match = pattern.match(para.text)  
    if match:  
        # 如果找到匹配项，则添加到提取的标题列表中  
        extracted_titles.append(match.group()) 
for title in extracted_titles:  
    print(title)
print(extracted_titles)

博客等级

码龄5年

18
原创

146
点赞

117
收藏

117
粉丝

关注

私信

热门文章

分类专栏

科研绘图 1篇

最新评论

python散点图颜色映射数值大小
CSDN-Ada助手: 恭喜您写下了第17篇博客！标题“python散点图颜色映射数值大小”很吸引人，内容想必也是很有深度的。希望您能继续保持创作的热情和动力，为大家带来更多有价值的内容。或许下一步可以尝试探讨其他数据可视化技巧，比如折线图或热力图等，相信会给读者带来新的启发和收获。期待您的下一篇作品！
python如何使用cartopy库来创建一个地图底图并绘制采样点位图
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何在高德开放平台获取密钥key
CSDN-Ada助手: 恭喜您发布了第14篇博客！学习如何在高德开放平台获取密钥key对于开发者们来说是非常有帮助的。希望您能继续分享更多关于开放平台的经验和技巧，或者可以深入探讨一些高级应用或案例分析，让更多人受益。谢谢您的分享！期待您更多精彩的创作！
python绘制简单折线图
CSDN-Ada助手: 恭喜您写了第15篇博客！不断学习和分享是很棒的事情。对于下一步的创作建议，我建议您可以尝试深入研究一些更高级的数据可视化技巧，比如使用Python绘制多元数据图表或者实现交互式数据可视化。希望您能继续保持热情，不断进步！祝您写作顺利！
Elasticsearch中word文本文件的存入与全文检索
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。