一、正则表达式
1. 定义
正则表达式 (regular expression)是一种非常强大的字符串操作工具。
啥是“正则”呢,瞅着汉字审视半天也没想明白到底是啥意思,还是看看它的英文本体长啥样吧:“regular expression”?规则的、有规律的表达式?到底是哪位“科学家”给翻译出“正则”这么高大上的名字的!分明就不想让中国人看懂嘛。
2. 用途:
这种“符合一定规则的、有规律的表达式”能干嘛呢?百度百科是这样讲的:
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”): # 1. 格式判断,比如判断电子邮件地址是否符合格式要求
2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。 # 2. 提取数据,爬虫是不是就是干这个呀
3. Python 中的 re 模块
必须首先导入 re 模块,然后才能使用相关的正则表达式函数和方法。
4. 正则表达式中的通配符(元字符)
- . 匹配任意字符(不包括换行符)
- ^ 匹配开始位置,多行模式下匹配每一行的开始
- $ 匹配结束位置,多行模式下匹配每一行的结束
- * 匹配前一个元字符0到多次
- + 匹配前一个元字符1到多次
- ? 匹配前一个元字符0到1次
- {m,n} 匹配前一个元字符m到n次
- \\ 转义字符,跟在其后的字符将失去作为特殊元字符的含义,例如\\.只能匹配.,不能再匹配任意字符
- [] 字符集,一个字符的集合,可匹配其中任意一个字符
- | 逻辑表达式 或 ,比如 a|b 代表可匹配 a 或者 b
- (...) 分组,默认为捕获,即被分组的内容可以被单独取出,默认每个分组有个索引,从 1 开始,按照"("的顺序决定索引值
- (?iLmsux) 分组中可以设置模式,iLmsux之中的每个字符代表一个模式,用法参见 模式 I
- (?:...) 分组的不捕获模式,计算索引时会跳过这个分组
- (?P<name>...) 分组的命名模式,取此分组中的内容时可以使用索引也可以使用name
- (?P=name) 分组的引用模式,可在同一个正则表达式用引用前面命名过的正则
- (?#...) 注释,不影响正则表达式其它部分,用法参见 模式 I
- (?=...) 顺序肯定环视,表示所在位置右侧能够匹配括号内正则
- (?!...) 顺序否定环视,表示所在位置右侧不能匹配括号内正则