基于正则表达式和jieba分词的文件名搜索

该博客介绍了如何使用Python的re模块进行正则表达式操作,结合jieba分词库进行文件名的搜索。内容包括文件夹和文件名的扫描存储、正则表达式的模式编译、re模块的关键函数,以及jieba库的分词模式和主要功能。博主展示了如何进行单个和多个关键词检索,并将结果进行排序和保存。
摘要由CSDN通过智能技术生成
概述

主要对文件夹(包括子文件夹)进行扫描得到所有文件夹名称及文件名称并保存到数据库中,提供文件夹或文件名的检索功能(包括单个关键词检索、多个关键词检索、全文匹配检索)

python中的正则表达式(re模块)

正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。

1.正则表达式:

通配符

.

匹配任意一个字符(除换行符)

特殊字符转义

\

python\.org,为了获得re中的单个反斜线,需要使用两个反斜线

python\\.org

原始字符串

r'..'

r'python\.org' 如此不需要再使用两个反斜杠

字符集

[]

匹配在一个范围内的单个字符'[abc]d'可以匹配ad,bd,cd

'[a-z]d'可以匹配a-z26个字母中的任意一个

'[a-zA-Z0-9]'可以匹配大小写字母和数字的一个

反转字符集

^

'[^abc]'匹配除了abc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值