一、正字表达式简介
概念:正则表达式,又称规则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。(百度百科)
说白了就是用来匹配字符的一个模式,满足该模式的表示匹配上了,就能够做查询、获取、替换等字符操作了。
(一)正则表达式元字符
| 通配符 | 含义 | 正则示例 | 匹配结果 |
|---|---|---|---|
| reg1 | reg2 | 匹配正则表达式reg1或reg2 | foo | bar | foo |
| + | 匹配1次或者多次前面出现的正则表达式 | [a-z]+ | aasx |
| ? | 匹配0次或者1次前面出现的正则表达式 | first? | first |
| {N} | 匹配N次前面出现的正则表达式 | *.c{2} | first.c abc.c |
| {M,N} | 匹配M~N次前面出现的正则表达式 | *.c{0,1} | one.c |
| . | 匹配任何字符(\n除外) | a.a | abc |
| ^ | 匹配字符串起始部分 | ^a | ab… |
| $ | 匹配字符串终止部分 | .txt$ | a.txt |
| * | 匹配0次或者多次前面出现的正则表达式 | a* | aaaaa |
| […] | 匹配来自字符集的任意单个字符 | [abc] | b |
| [^…] | 不匹配次字符集中任意单个字符 | [^0-9] | a |
| (*|+|?|{})? | 匹配上面频繁出现符号的非贪婪版 | (*|+|?|{})? | ({}) |
| (…) | 匹配封闭的正则表达式,然后另存为子组 | ([0-1][0-9])? | 12 |
| \d | 匹配任何十进制数字 | \d.txt | 1.txt |
| \w | 匹配任何字母数字字符 | \w{2}txt | 1.txt |
| \s | 匹配任何空格字符 | a\sb | a b |
| \b | 匹配任何单词边界 | The\bdog | The dog |
| \N | 匹配已保存的子组 | ([0-9])\1 | 1 |
| \. | "\"是转义字符,用在特殊字符前 | a.txt | a.txt |
等价匹配:
- ?,*,+,\d,\w 都是等价字符
- ?等价于匹配长度{0,1}
- *等价于匹配长度{0,}
- +等价于匹配长度{1,}
- \d等价于[0-9]
- \D等价于[^0-9]
- \w等价于[A-Za-z_0-9]
- \W等价于[^A-Za-z_0-9]
**贪婪模式:**正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str,结果就是匹配到abcaxc(ab.*c)
**非贪婪模式:**就是匹配到结果就好,就少的匹配字符。如上面使用模式p匹配字符串str,结果就是匹配到abc(ab.*c)。一般在某个模式后面跟上?表示非贪婪
(二)常用正则表达式

二、python的re模块
python的re模块就是用来用正则表达式的方式封装了几个使用的函数
- match(pattern, string, flags = 0)使用带有可选标记的正则表达式的模式来匹配字符串。如果匹配成功,返回匹配对象,否则返回None。 从字符串头部开始匹配
import re
content = 'The 123456 is my one phone number.'
print(len(content)) #字符串长度
result = re.match(r'^The\s\d+\s\w*', content) #使用match匹配, 第一个参数为正则表达式, 第二个为要匹配的字符串
print(result)
print(result.group()) #输出匹配内容
print(result.
本文介绍了正则表达式的基本概念和元字符,包括贪婪与非贪婪模式。接着详细阐述了Python中re模块的功能,如match、search、findall、finditer、split、sub和compile等函数的用法,并提到了正则表达式的修饰符如re.S、re.I、re.M和re.X。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



