正则表达式的语法
在正则表达式中,元字符是指具有特殊含义的专用字符,主要用于规定其前导字符在给定字符串中出现的模式。
在正则表达式中,除了前面介绍的元字符之外,还预定义了一些字符集,这些字符集以更加简洁的方式描述了一些由普通字符和元字符组合的模式。
re模块的使用
Python中提供了re模块操作正则表达式,该模块中提供了丰富的函数或方法来实现文本匹配查找、文本替换、文本分割等功能。re模块的使用一般可以分为两步,分别是创建Pattern对象和全文匹配。
为了节省每次编译正则表达式的开销,保证正则表达式可以重复使用,我们可以使用compile()函数对正则表达式进行预编译,从而生成一个代表正则表达式的Pattern对象。
创建Pattern对象
compile(pattern, flags=0)
参数pattern表示一个正则表达式;参数flags用于指定正则表达式匹配的模式
flags常用取值及其含义
-
lre.I:忽略大小写。
-
lre.L:做本地化识别(locale-aware)匹配,使预定义字符集\w、\W、\b、\B、\s、\S取决于当前区域设定。
-
lre.M:多行匹配,影响“^”和“$”。
-
lre.S:使字符“.”匹配所有字符,包括换行符。
-
lre.U:根据Unicode字符集匹配字符。
-
lre.A:根据ASCII字符集匹配字符。
-
lre.X:允许使用更灵活的格式(多行、忽略空白字符、加入注释)书写正则表达式。