python提供了re模块,用于实现正则表达式的操作。在实现时,可以使用re模块提供的方法(如search()、match()、findall()等)进行字符串处理,也可以使用re模块的compile()方法将模式字符串转换为正则表达式对象,然后再使用该正则表达式对象的相关方法来操作字符串。
匹配字符串
1.使用match()方法进行匹配
match()方法用于从字符串的开始处进行匹配,如果在起始位置匹配成功,则返回Match对象,否则返回None。其语法格式如下:
re.match(pattern,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来。
string:表示要匹配的字符串。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
>>> import re
>>> pattern = r'mr_\w+' #模式字符串
>>> string = 'MR_SHOP mr_shop' #要匹配的字符串
>>> match = re.match(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
<re.Match object; span=(0, 7), match='MR_SHOP'>
>>> string = '项目名称MR_SHOP mr_shop'
>>> match = re.match(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
None
2.使用search()方法进行匹配
search()方法用于在整个字符串中搜索第一个匹配的值,如果匹配成功,则返回Match对象,否则返回None。search()方法的语法格式如下:
re.search(pattern,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来。
string:表示要匹配的字符串。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
>>> import re
>>> pattern = r'mr_\w+' #模式字符串
>>> string = 'MR_SHOP mr_shop' #要匹配的字符串
>>> match = re.search(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
<re.Match object; span=(0, 7), match='MR_SHOP'>
>>> string = '项目名称MR_SHOP mr_shop'
>>> match = re.search(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
<re.Match object; span=(4, 11), match='MR_SHOP'>
search()方法不仅仅是在字符串的起始位置搜索,其他位置有符合的匹配也可以进行搜索。
3.使用findall()方法进行匹配
findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串,并以列表的形式返回。如果匹配成功,则返回包含匹配结构的列表,否则返回空列表。findall()方法的语法格式如下:
re.findall(pattern,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来。
string:表示要匹配的字符串。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
>>> import re
>>> pattern = r'mr_\w+' #模式字符串
>>> string = 'MR_SHOP mr_shop' #要匹配的字符串
>>> match = re.findall(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
['MR_SHOP','mr_shop']
>>> string = '项目名称MR_SHOP mr_shop'
>>> match = re.search(pattern,string,re.I) #匹配字符串,不区分大小写
>>> print(match) #输出匹配结果
['mr_shop']
替换字符串
sub()方法用于实现字符串替换,语法格式如下:
re.sub(pattern,repl,string,count,flags)
pattern:表示模式字符串,由要匹配的正则表达式转换而来。
repl:表示要替换的字符串。
string:表示要被查找替换的原始字符串。
count:可选参数,表示模式匹配后替换的最大次数,默认为0,表示替换所有的匹配。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
>>> import re
>>> pattern =r'1[34578]\d{9}'
>>> string = '中奖号码为:84978981 联系电话为:13611111111'
>>> result = re.sub(pattern,'1xxxxxxxxxx',string)
>>> print(result)
中奖号码为:84978981 联系电话为:1xxxxxxxxxx
使用正则表达式分割字符串
split()方法用于实现根据正则表达式分割字符串,并以列表的形式返回。split()方法的语法格式如下:
re.split(pattern,string,[maxsplit],[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来。
string:表示要匹配的字符串。
maxsplit:可选参数,表示最大的拆分次数。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
>>> import re
>>> pattern = r'[?|&]'
>>> ur1 = 'http://www.baidu.com/login.jsp?username="mr"&pwd="mrsoft"'
>>> result = re.split(pattern,ur1)
>>> print(result)
['http://www.baidu.com/login.jsp', 'username="mr"', 'pwd="mrsoft"']