什么是正则表达式(非Python独有,re 模块实现):
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符,及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达的对字符串的一种过滤逻辑。
正则表达式测试网址: https://tool.oschina.net/regex
常见的匹配模式:
或者可以查看:https://www.runoob.com/python/python-reg-expressions.html
re.match函数
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)
函数参数说明:
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
常规匹配:
import re
content = "Hello 123 4567 World_This is a Regex Demo"
print(len(content)) # 打印字符长度
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content) # 进行匹配
print(result) # 匹配结果
print(result.group()) # 打印匹配结果
print(result.span()) # 输出匹配结果的范围
效果如下:
泛匹配:
import re
content = "Hello 123 4567 World_This is a Regex Demo"
result = re.match('^Hello.*Demo$',content) # 使用 .* 匹配所有字符串
print(result)
print(result.group())
print(result.span())
效果如下:
匹配目标:
import re
# 匹配 1234567
content = "Hello 1234567 World_This is a Regex Demo"
result = re.match('^Hello\s(\d+)\sWorld.*Demo$',content) # \d+ 代表所有数据
print(result)
print(result.group(1)) # (1)代表上一步(\d+)匹配的内容
print(result.span())
效果如下:
贪婪匹配:
import re
content = "Hello 1234567 World_This is a Regex Demo"
result = re.match('^He.*(\d+).*Demo$',content) # 使用贪婪匹配 .* 会尽可能多的匹配,直到匹配不到位置
print(result)
print(result.group(1)) # 所以这里只留了最后一位数字 7
print(result.span())
效果如下:
非贪婪匹配:
import re
content = "Hello 1234567 World_This is a Regex Demo"
result = re.match('^He.*?(\d+).*Demo$',content) # ? 表示 非贪婪匹配 ,匹配可能少的字符,
print(result)
print(result.group(1))
print(result.span())
效果如下:
匹配模式:
import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S) # .*不支持换行,引入第三参数解决
print(result)
print(result.group(1))
print(result.span())
效果如下:
转义
import re
content = 'price is $5.00'
result = re.match('price is \$5\.00',content) # 遇特殊字符 使用 \ 进行转义
print(result)
print(result.group())
print(result.span())
效果如下: