一、正则表达式介绍
在编程中,字符串是涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。
正则表达式是一种用来匹配字符串的强有力的武器。
它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
所以我们判断一个字符串是否是合法的Email的方法是:
创建一个匹配Email的正则表达式;
用该正则表达式去匹配用户的输入来判断是否合法。
因为正则表达式也是用字符串表示的,所以,我们要首先了解如何用字符来描述字符。
二、正则表达式过程
首先:依次拿出表达式和文本中的字符比较,
其次:如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。
最后:如果表达式中有量词或边界,这个过程会稍微有一些不同。
三、正则表达式模块re示例
re.findall(),搜索string,以列表形式返回全部能匹配的子串。
四、元字符
(1)通配符.:匹配任意字符(除换行符外)
如果想要匹配换行符号,需要一个修饰符re.S,re.S是匹配任意多行,包括换行符。
(2)脱字符^:匹配字符串开头,在多行模式中匹配每一行的开头
(3)$:匹配字符串末尾,多行模式中匹配每一行的末尾
(4)* + ?控制前一个字符的次数
(5){}:控制表达式次数
(6)[]:字符集
(7)|:选择元字符
(8)转义元字符
取消字符串的转义在任意字符串之前添加字母r或者R,那么当前字符串中所有转义字符在使用时都不会进行转义操作,这就是元字符串,正则表达式中常见格式。
1.取消字符串转义:r,R
2.取消正则表达式转义:\
(9)\w 匹配任意一个字母、数字、下划线或汉字
\W '匹配除了任意一个字母、数字、下划线或汉字之外的。
(10)\s 匹配任意一个空白符(空格、Tab空格、换行符)
\S匹配除了空白符(空格、Tab空格、换行符)以外的任意一个字符
(11)\d 匹配的任意一个数字(0-9)
\D 匹配任意一个非数字
(12)\b 匹配单词的开始和结束的位置 i am a good i?am studen,bad boy! ^\bam
\B 匹配任意一个非单词开始和结束的位置
(13)穷举[-]
需求:匹配数字1到9
正则表达式:[1-9]