正则表达式不只是用于python中,他是通用的一种语言,正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行
元字符:
. ^ $ * + ? {} [] \ | ()
正则表达式中test会和字符串'test'完全匹配
[]:
一.常用来指定一个字符集:[abc];[a-z]
二.元字符在字符集中不起作用:[akm$]
三.补集匹配不在区间内:如:[^5]
首先说一下关于r的用法:r用于去除\的转义处理,如上面第一个例子所述:
当有r时,\n不表示换行,当没有r时,\n表示换行
其次在使用正则匹配时要加载re
在st中寻找res字符串,注意先后顺序
^字符表示在字符集中取反,即不包含io字符的字符串,这一点尤其注意
^:表示行首
如上是可以实现的,^表示行首为hello的
$表示行尾:
注意上述并不是表示行尾
如上第一个是将^表示行首的进行转义处理;后者之所以没有匹配到任何字符是因为没有以abc为首的字符串
内置的类型:
\d:表示数字类型
\D:表示非数字类型
\s:任何空白字符,相当于\t\n\r\f\v
\w:任何字母数字字符,相当于[a-zA-Z0-9]
\W:与\w相反
如上查找到的都是列表元素,用法都类似
*:
指定前一个字符可以被匹配0次或多次,而不是只有一次
如上正则表达式中的‘*’与一般的匹配'*'意义不同
+:
匹配一次或多次
注意+与*是不同的,+至少需要出现一次,*则可以不出现
?:
表示匹配0次或者1次
{}:
可以表示个数
如上\d要达到8个,-符号只能有0个或者1个且为010开头
re模块:
re模块中有一个方法叫compile,编译之后的匹配速度更加快。
编译之后的正则要速度快的多
re.compile()接受可选的标志参数,用来实现不同的特殊功能和语法变更
如上的re.I表示忽略大小写,re.compile表示编译出正则表达式
下一讲,正则表达式(2)