使用 python 在多个word文件中提取关键字

该博客介绍了一种使用Python docx模块的方法,从多个Word文档中搜索并提取包含特定关键字的段落,并将结果保存到TXT文件中。这个脚本可以帮助用户快速处理大量文档,提高工作效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用 python 在多个word文件中提取关键字

当有大量word文档,需要从里面提取包含某项信息的文字时,可用python的docx模块

# 提取word文件中包含制定文字的段落到txt中
import os
from docx import Document
# word:要找的词语
# out_file 保存查找结果的文件
def search_word_in_docx(word,out_file):
    # 获取当前路径下所有文件列表
    files = os.listdir()
    # 筛选出.docx格式的word文档
    for file in files:
        # 若是存在doc格式的word文档,则将其批量转换为.docx格式即可
        if file.endswith('.docx') and not file.startswith('-$') :
            # 打开woord文档
            doc = Document(file)
            # 获取word文档每一行的内容
            for i in doc.paragraphs:
                #以'爱国'开头的段落,也可以改成以某个字结尾或者包含某个字
                if word in i.text:
                #if i.text.startswith('爱国'):
                    with open(out_file, 'a+') as f:
                        f.write(i.text+'\n'+'\n')


search_word_in_docx('线','结果.txt')





评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值