概念:原子 元字符 模式修正符 贪婪模式 懒惰模式
1.原子 正则表达式的基本组成单位,至少包含一个原子
普通字符作为原子 如 regx="abc" 单纯的去匹配string中是否包含“abc”
- 非打印字符作为原子 如 换行符制表符“\n \t”regx=“\n”
- 通用字符作为原子 即一个原子匹配一类字符,常用通用字符及其含义如下
- 原子表 一组地位平等的原子,匹配时会去取表中的任意一个原子进行匹配,python中用[]表示如:
regx="[xyz]py" string="xpython" 则匹配。只要py前一位是x y z中的任意一个字母均可以匹配成功
regx="[^xyz]py" string="xpython" 则不匹配。“^”表示非,即只有当py前一位不是x y z中的任意一个字母菜可以匹配成功
2.元字符 正则表达式具有特殊含义的字符。常用元字符及含义如下:
例子:“.py..” 表示?py??(这里?仅表示除空格以外的任意字符) “^abc”匹配以abc开头的字符串 “abc$”匹配以abc结尾的字符串 “cd{2}”匹配cd字符串中的“d”出现两次,即“cdd”cd{2,}表示“d”至少出现两次 regx=“php|python”设置了多个模式,匹配时选择其中任意一个模式匹配。字符串“php”“python”均满足匹配条件。 (cd){2} 表示cd是一个大原子,表示"cd"出现两次,即"cdcd"。