8.字符串进阶
8.1正则表达式
8.1.1正则表达式的基本认识
正则表达式是一个特殊的字符序列,帮助我们检索、替换字符串中符合某个模式(规则)的文本。
#程序8-1
import re
s = 'Life is short,You need Python!'
print('Python' in s)
r = re.findall('Python',s)
print(r)
运行结果:
True
['Python']
对于简单的字符串检索,可以使用in来判断;而对于复杂的字符串检索,还是需要使用正则表达式。
在使用正则表达式之前,需要导入re模块。在re模块中提供了很多函数,如findall、match、search、sub等。在程序8-1中,findall函数的参数1表示要匹配的正则表达式,即’Python’;参数2表示需要匹配的字符串,即s。
8.1.2正则表达式常用函数
1.def findall(pattern, string, flags=0):搜索string,以列表的形式返回所有能匹配到的子串。参数pattern:匹配的正则表达式;string:要匹配的字符串;flags:标志位,用于控制正则表达式的匹配方式。
#程序8-2
import re
s = 'Life is short,You need Python!'
r = re.findall('Python',s)
print(r)
运行结果:
['Python']
2.def match(pattern, string, flags=0):从string的起始位置开始匹配,若匹配失败返回None。
#程序8-3
import re
r1 = re.match('abcd','abcdef')
print(r1)
print(r1.group())
print(r1.span())
r2 = re.match('bcd','abcdef')
print(r2)
运行结果:
<re.Match object; span=(0, 4), match='abcd'>
abcd
(0, 4)
None
对于match函数,其返回值可以使用group()、span()函数来访问其匹配的子串和位置信息。
3.def search(pattern, string, flags=0):从string的起始位置开始匹配,若第一次匹配成功则立即返回,并不再向后匹配;若匹配失败返回None。
#程序8-4
import re
s = '1abc,2abc,3abc'
r = re.search('ab',s)
print(r)
print(r.group())
print(r.span())
运行结果:
<re.Match object; span=(1, 3), match='ab'>
ab
(1, 3)
4.def sub(pattern, repl, string, count=0, flags=0):从string起始位置开始匹配,若匹配成功则使用repl替换;count表示最多替换的次数。
#程序8-5
import re
s = '1abc,2abc,3abc'
r = re.sub('abc','def',s,2)
print(r)
运行结果:
1def,2def,3abc
5.对于函数findall、match、search、sub等,都有flag标志位,常用的有re.I表示忽略大小写,re.S表示让’.’可以匹配包括换行符’\n’在内的任意字符('.'不包括换行符)。