正则表达式基础
最近这一周跟着网课学习了正则表达式的一些基础内容,放在博客上来加深一下自己的印象:
一、正则表达式的概念
正则表达式是使用单个字符串来描述匹配一系列符合某个句法规则的字符串;是对字符串操作的一种逻辑公式;用来处理文本和数据;一次拿出表达式和文本中的字符做比较,如果每一份字符都能匹配,则匹配成功,否则匹配失败。
python中的re库可以用来实现正则表达式,使用re.compile()生成一个正则表达式对象pattern,使用pattern.match()方法或者pattern.search()方法可以得到匹配的结果。
具体方法:
①search(pattern,string,flags=0):在一个字符串中查找匹配
str1='hello2018'
info=re.search(r'\d+',str1) 匹配到的是2018
②findall(pattern,string,flags=0):找到匹配,返回所有匹配部分的列表
str2='c++:100.java:90,python:80'
info=re.findall(r'\d',str2) 可以匹配到['100','90','80'] 如果使用search()就只能匹配到100
③sub(pattern,repl,string,count=0,flags=0):将字符串中匹配正则表达式替换为其他值
def add1(match):
val=match.group()
num=int(val)+1
return str(num)
str3='this year is 2018'
re.sub(r'\d+',add1,str3) 将匹配到的2018传给函数add1,执行完后得到2019
④split(pattern,string,maxsplit=0,flags=0):根据匹配分割字符串,返回分割字符串组成的列表
str4='hello,nice|to.meet,you'
info=re.split(r',|\||.|,',str4)使用特定的符号作为字符串的分隔符
⑤match(pattern,string,flags=0):从头开始匹配字符串
info=re.match(r'\d+',2018) 从开头匹配
二、正则表达式的基础内容
1、匹配单个字符
. 匹配任意字符(除了\n)
[…]匹配字符集
\d / \D 匹配数字/非数字
\s / \S 匹配空白/非空白字符
\w / \W 匹配单词字符[a-zA-Z0-9]/非单词字符
例子:ma=re.match(r’.’,‘a’):‘.’可以匹配任意字符,所以可以匹配’a’,使用ma.group()得到a
2、匹配多个字符
* 匹配前一个字符0次或者无限次
+ 匹配前一个字符1次或者无限次
? 匹配前一个字符0次或者1次
{m} / {m,n} 匹配前一个字符m次或者m到n次
*? / +? / ?? 匹配模式变为非贪婪(尽可能少匹配字符)
例子:匹配一个python的变量名(由数字字母下划线组成,开头必须是字母和下划线)
ma=re.match(r’[_a-zA-Z]+[_\w]*’,_sum)
3、边界匹配
^ 匹配字符串开头
$ 匹配字符串结尾
\A / \Z 指定的字符串必须出现在开头/结尾(\A以后的字符 \Z之前的字符)
例子:ma.re.match(r’\A_[\w]*_\Z’,‘098’) 匹配开头和结尾都是’_'的字符串
4、分组匹配
| 匹配左右任意一个表达式
(ab)括号中的表达式作为一个分组
<number>引用编号为num的分组匹配到的字符串
(P) 分组起一个别名
(?P=name) 引用别名为name的分组匹配字符串
例子:
ma=re.match(r’[\w]{4,6}@(163|126).com’,‘imooc@126.com’)
ma=re.match(r’<[\w]+>[\w]+</\1’,‘python’) (这个\1就代表了前面的<>匹配到的book)
ma=re.match(r’<(?P<mark>[\w]+>)[\w]+</(?P=mark)>’,‘python’) ((?P=mark)代表的是前面匹配到的book)