python里的正则化库re
,使用方法:
import re
line = 'boooooobby123'
regex_str = "^b.*3$"
re.match(regex_str, line)
正则化用到的特殊字符
^
$
*
?
{2}
{2, }
{2,5}
|
[]
[^]
[]
[^]
[a-z]
\s
\S
\w
\W
[\u4E00-\u9FA5]
()
\d
^
^a
匹配以字符a
开头的字符串
$
3$
匹配以3结尾的字符串
*
^b.*3$
匹配以b开头以3结尾的,中间有若干重复或不重复的字符(>=0)的字符串
?
非贪婪匹配方式。如果要匹配字符串'boooooobby123'
的子串 'boooooob'
。 按正常的想法:
line = 'boooooobby123'
regex_str = ".*(b.*b).*"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))
但是返回的结果是bb
。这是因为默认的是从后向前的贪婪匹配。使用非贪婪的匹配方法:
regex_str = ".*?(b.*b).*"
但输出结果是boooooobb
因为虽然前面使用了非贪婪匹配,但后面还是贪婪的,所以应该是:
regex_str = ".*?(b.*?b).*"
+
前面字符至少出现一次,如b.+b
匹配的就是bbb
{2}
限定字符出现的个数为2
{2,}
限定出现字符个数超过2
{2,5}
限定出现字符个数在2到5之间
|
或关系
line = 'boobby123'
regex_str = "(bobby|boobby)123"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))
结果为boobby
,如果想取完整的再加一个括号"((bobby|boobby)123)"
, 得到boobby123
。print(match_obj.group(2))
得到boobby
。
[]
代表满足中括号里的条件。[abcd]oobby123
, 指第一个字符是abcd
中的任意一个,[0-9]
代表0-9之间的数,[^1]
代表非1 。
比较常用的是匹配电话号码:
line = "18782902222"
regex_str = "(1[48357][0-9]{9})"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))
.
代表任意字符
\s
反斜杠小s:一个空格符号
line = "你 好"
regex_str = "(你\s好)"
\S
反斜杠大s:一个不为空格的符号
\w
反斜杠小w:指[a-zA-Z0-9_]中的任意字符
\W
反斜杠大w:指不为[a-zA-Z0-9_]字符的任意字符
[\u4E00-\u9FA5]
指出现汉字
line = "study in 清华大学"
regex_str = ".*?([\u4E00-\u9FA5]+大学)"
得到清华大学
,如果没有?
则贪婪匹配到华大学
()
用来取子串
\d
提取数字
line = "XXX出生于2011年"
regex_str = ".*(\d{4})年" # 或者 ".*?(\d+)年"
实例
# 能满足匹配下面的5种情况
line = "xxx出生于2001年6月"
line = "xxx出生于2001/6/1"
line = "xxx出生于2001-6-1"
line = "xxx出生于2001-06-01"
line = "xxx出生于2001-06"
regex_str = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]$|$))"