一、正则表达式常见匹配字符快速回顾
符号 | 描述 |
---|---|
. | 匹配处换行符\n之外任意1个字符 |
[] | 匹配[]中任意一个 |
\d | 一个0-9数字 |
\D | 匹配非数字 |
\w | 匹配单词字符:a-z、A-Z、0-9 |
\W | 匹配非单词字符 |
\s | 匹配空格、tab健 |
\S | 匹配非空格,tab健 |
常用的匹配规则-匹配字符数量
-
匹配前一个字符出现0次或者无数次
-
匹配前一个字符出现1次或者无数次
符号 | 描述 |
---|---|
? | 匹配前一个字符出现0次或者1次 |
{m} | 匹配前一个字符出现m次 |
{m,} | 匹配前一个字符出现至少m次 |
{n,m} | 匹配前一个字符出现n-m次 |
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
| | 或 |
(ab) | 将括号中字符作为一个分组 |
二、 实战:正则表达式判断IPv4地址合法性
python正则表达式处理re.match()函数,可以对字符进行匹配,查找的位置是从指定的位置开始一直往后找,返回第一个符合规则的对象,如果开始位置不符合匹配队形则返回None。而如果从起始位置开始没有匹配成功,即便其他部分包含需要匹配的内容,re.match()也会返回None。
忘记的同学可以去看上篇文章讲解
-
问题:假设有一个IP地址,如ip = ‘10.10.10.10’,如何检测IPV4的IP地址格式是否正确?
分析
IPV4地址分四段,分别为:(1-255).(0-255).(0-255).(0-255)
第一段分析,有以下5种情况:
1-9 1位数,由于是第一段,因此不能取0,1-9任意取 10-99 1开头两位数,个位数0-9任意取 100-199 1开头三位数,十位数和个位数0-9任意取 200-249 2开头三位数,当十位数为0-4时(即250以内),个位数0-9任意取 250-255 2开头三位数,当十位数为5时(大于等于250),个位数只能取0-5 这五种情况对应的正则如下:
1-9 [1-9] 10-99 [1-9]\d 100-199 1\d\d 200-249 2[0-4]\d 250-255 25[0-5] 组合起来就是:
[1-9]|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]
加个小括号组合起来:
([1-9]|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])
后三段情况均一样,有以下5中情况:
0-9 1位数,0-9任意取,唯一与第一段有区别的地方 10-99 1开头两位数,个位数0-9任意取 100-199 1开头三位数,十位数和个位数0-9任意取 200-249 2开头三位数,当十位数为0-4时(即250以内),个位数0-9任意取 250-255 2开头三位数,当十位数为5时(大于等于250),个位数只能取0-5 这五种情况对应的正则如下:
0-9 \d 10-99 [1-9]\d 100-199 1\d\d 200-249 2[0-4]\d 250-255 25[0-5] 组合起来就是
\d|\[1-9]\d|1\d\d|2[0-4]\d|25[0-5]
第四段最后需要加上结尾符号:$。表示终止匹配。
最终结果:
import re ip1 = '100.10.10.253' print(re.match(r'([1-9]|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])$',ip1)) *******************print********************************* <re.Match object; span=(0, 13), match='100.10.10.253'> ip2 = '0.10.10.253' print(re.match(r'([1-9]|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]).(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])$',ip2)) *******************print********************************* None