正则表达式
正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
- 给定的字符串是否符合正则表达式的过滤逻辑(匹配)
- 通过正则表达式,从字符串中获得我们想要的特定的部分
使用场景
- 爬虫
- 数据挖掘和分析
在Python中使用正则需要导入re包
import re
首先我们来看两个例子来体验一下正则表达式的威力吧:
引入案例1
比如,已知一个列表:
li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]
找出以Ch开头的字串。
# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
if i[0:2] == "Ch":
lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])
找出数字
import re
a = 'ab23fd5g67'
m = r'[0-9]+'
num = re.findall(m, a)
print(num)
# ['23', '5', '67']
Python正则表达式的基础
单字符匹配规则
| 字符 | 功能 |
|---|---|
| . | 匹配任意一个字符(除了\n) |
| [] | 匹配[]中列举的字符 |
| \d | 匹配数字(0-9) |
| \D | 匹配非数字(\d取反) |
| \w | 匹配单词字符, A-Z, a-z, 0-9, _ |
| \W | \w取反 |
-
re.match(patter, string, flags = 0)- 作用:从字符串的开头开始匹配一个模式
- 匹配成功,返回一个匹配成功的对象
- 否则,返回None
- 参数说明:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写
- 作用:从字符串的开头开始匹配一个模式
-
re.group([group1, ...])字符串或者元组- 作用:获取一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号,也可以使用别名
- 编号0代表匹配整个字符串,默认返回group(0)
- 如果没有截获字符串,返回None
- 截获了多次的组,返回最后一个截获的子串
-
re.groups([default=None]) tuple- 作用:以元组形式返回全部分组截获的字符串。类似调用
re.groups(1, 2, ..., last) - 如果没有截获字符串的组,默认返回None
- 作用:以元组形式返回全部分组截获的字符串。类似调用
import re
m = re.match('.', 'city')
print(m.group())
m = re.match('[Cc]', 'city')
print(m.group())
m = re.match('[0-9]', '156')
print(m.group())
c
c
1
数量匹配规则
| 字符 | 功能 |
|---|---|
| * | 匹配前一个字符出现0次多次或者无限次,可有可无,可多可少 |
| + | 匹配前一个字符出现一次多次或者无限次,知道出现一次 |
| ? | 匹配前一个字符出现一次或者0次,要么有一次,要么没有 |
| {m} | 匹配前一个字符出现m次 |
| {m, } | 匹配前一个字符出现m次 |
| {m, n} | 匹配前一个字符出现m到n次 |
表示边界
| 字符 | 功能 |
|---|---|
| ^ | 匹配字符串开头 |
| $ | 匹配字符串的结尾 |
| \b | 匹配一个单词的边界 |
| \B | 匹配非单词边界 |
匹配分组
| 字符 | 功能 |
|---|---|
| | | 匹配左右任意一个表达式 |
| (ab) | 将括号中的任意字符作为一个分组 |
| \num | 引用分组num匹配到的字符串 |
| (?P) | 分组起别名 |
| (?P=name) | 引用别名为name分组匹配到的字符串 |
-
re.search(pattern, str, flags=0)- 作用:扫描整个字符串,返回第一次成功匹配的对象
- 如果匹配失败,返回None
- 参数:
-
re.findall(pattern, str, flags=0)- 作用:获取字符串所有匹配的字串,并以列表形式返回
-
re.finfiter()- 作用:获取字符串所有匹配的子串,并返回一个迭代器
re.match()和re.search()的区别
re.match()从字符串开头开始匹配,如果匹配失败,None;re.search()匹配整个字符串,知道找到一个匹配,如果匹配失败,None
4359

被折叠的 条评论
为什么被折叠?



