python批量提取关键词所在段落并输出到excel

1 前言

本小白非科班出身,因工作需要,管理着700多份文件,文件内容基本相似,有少部分不同。一天发现其中一段有错误,查询相关标准,发现错误不只一个文件,于是乎一个一个的打开查找。公司电脑内存只有4G,开到10多个文件就卡得不行,想到最近学习一python,用上试试。自己直接编写代码就不用想了,上网借两段试试。找了不少,用到的不多,其实是用到了两篇,也是在CSDN上的大神写的,因为没有收藏,找不到是哪两篇了。如果有发现是哪篇,请发个链接,我附在后面。谢谢

2 需求:

一批格式相似的word文件,查找其中有关键词的段落并输出到excel。

3 代码部分:

# -*- coding: UTF-8 -*-
import docx
import os
import xlwt
from docx import Document #导入库
def Key_words(keyword):
    rootdir =(r'C:\Users\Administrator\Desktop\test\e')
    list = os.listdir(rootdir) #列出文件夹下所有的目录与文件
    f = xlwt.Workbook()#创建工作簿
    sheet1 = f.add_sheet(u'sheet1',cell_overwrite_ok=True) #创建sheet
    for i in range(0,len(list)):
        path = os.path.join(rootdir, list[i])
        if os.path.isfile(path):
            document = Document(path) #读入文件
            content = "\n".join([para.text for para in document.paragraphs])
            a=content.split("\n")

            data=[]

            for x in a:
                if keyword in x:
                    data.append(x)
                    data.append(path)
                    print(data)

            ####print(b)####b中包含了所有的查找字符串的段落啦。复制到word中就完了。
        l_ = range(len(data))
        x = data
        for j in l_:
            sheet1.write(i + 1, j, x[j])
    f.save("工艺001"+".xlsx")
Key_words("成品贮藏及注意事项")

有知道参考出处的麻烦评论,我附在后面,谢谢!

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值