使用 python 查阅所有 docx 文件中的关键词

最近遇到了这样一个需求,有非常多的文件,老板让我挨个在这些文件里找某某关键词。

这种繁复的操作当然不能真的人工去做,我选择用python

首先,需要获取所有的docx文件名,方便后续在docx文件中查找。

import os

def search_files(directory):
    # 创建一个空列表用来保存结果
    result = []
    # 遍历文件夹中的所有文件
    for root, _, files in os.walk(directory):
        for file in files:
            # 如果文件是 docx 文件,就将文件名添加到结果列表中
            if file.endswith('.docx'):
                result.append(file)
    return result

获取 docx 文件名后,依次打开并读取即可

import docx

def search_file(file_names, text):
    # 读取 docx 文件
    for file_name in file_names:
        doc = docx.Document(file_name)
        # 遍历文件中的所有段落
        for paragraph in doc.paragraphs:
            # 如果段落中包含特定文本,就返回 True
            if text in paragraph.text:
                print(file_name)
                break

完整代码如下:

import os

def search_files(directory):
    # 创建一个空列表用来保存结果
    result = []
    # 遍历文件夹中的所有文件
    for root, _, files in os.walk(directory):
        for file in files:
            # 如果文件是 docx 文件,就将文件名添加到结果列表中
            if file.endswith('.docx'):
                result.append(file)
    return result


import docx

def search_file(file_names, text):
    # 读取 docx 文件
    for file_name in file_names:
        doc = docx.Document(file_name)
        # 遍历文件中的所有段落
        for paragraph in doc.paragraphs:
            # 如果段落中包含特定文本,就返回 True
            if text in paragraph.text:
                print(file_name)
                break

# 搜索文件夹中的 docx 文件
file_names = search_files('C:/Users/CauZh/Desktop/党政联席会')

# 搜索特定文本
search_file(file_names, '研究生')

试运行:
在这里插入图片描述


2023年1月14日13:57:27

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值