Python实现在存在多个docx文档中进行关键字模糊查询

import docx,os,re


def get_key_content():
	#定义搜索关键字
	key='任意的字符串'
	#定义docx存在目录
    path=r"D://file//all_docx"
    #设置for循环读取文件夹下的docx文档
    for i in os.listdir(path):
    	#判断是否是docx的文档
    	if i.endswith('.docx'):
    		#定义doc对象读取docx文件文件
    		doc=docx.Document(path+'//'+i)
    		#定义字符串用来接收获得的docx文字
    		str_content=''
    		#按段落进行for循环文字读取
    		for n in doc.paragraphs:
    			#避免出现读取docx文本中的\xa0错误,进行替换
    			n.text=n.text.replace(u'\xa0', u'')
    			#进行读取文档内容的拼接
    			str_content+=n.text+'\n'
    		#使用正则表达式进行关键字查找
    		 result = re.findall('.*?{}.*?\n'.format(key), str_lll)
    		#判断搜索结果是否存在
    		if len(result)!=0:
				for y in result:
				print(y)
			else:
				print('结果不存在')   
if __name__=='__main__':
    get_key_content()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值