Python的正则表达式
import re
一、匹配单个字符
.(匹配任意字符除了\n)
ma=re.match(r'{.}','a')
ma.group()
---结果为:a
ma=re.match(r'{...}','abc')
ma.group()
---结果为:abc
[...](匹配字符集)
ma=re.match(r'{[a-zA-Z0-9]}','{a}')
ma.group()
\d \D(匹配数字/非数字)
ma=re.match(r'{[\d]}','{1}')
\s \S(匹配空白/非空白字符)
\w \W(匹配单词字符[a-zA-Z0-9]/非单词字符)
二、匹配多个字符
*(匹配前一个字符0次或者无限次)
ma=re.match(r'{[A-Z][a-z]*}','{Azzzzzzz}')
ma.group()
---结果为:Azzzzzzzz
+(匹配前一个字符1次或者无限次)
ma=re.match(r'[_a-zA-z]+[_\w]','_123')
?(匹配前一个字符0次或者1次)
例子:判断0-99的数(09是不允许的)
ma=re.match(r'[1-9]?[0-9]','09')
{m}/{m,n}(匹配前一个字符m次或者m到n次)
例子:匹配邮箱
ma=re.match(r'[a-zA-Z0-9]{6,10}@163.com','123456743@163.com')
*?/+?/??(匹配模式变为非贪婪()尽可能少匹配字符)
ma=re.match(r'[0-9][a-z]*?','1bc')
三、边界匹配
^(匹配字符串开头)
$(匹配字符串结尾)
ma=re.match(r'^[\w]{4,10}@163.com$','12343ds@163.com')
\A \Z(指定的字符串必须出现在开头/结尾)
ma=re.match(r'\Aimooc[\w]*','imoocpython')
四、分组匹配
|(匹配左右任意一个字符)
ma=re.match(r'[1-9]?$|100','100')
(ab)(括号中的表达式作为分组)
例子:同时比较163和126邮箱
ma=re.match(r'[\w]{4,6}@(163|126).com','imooc@126.com')
\<number>(引用编号为num的分组匹配到的字符串)
例子:XML语言,<book>python</book>
ma=re.match(r'<([\w]+>)[\w]+</\1','<book>python</book>')
(?P<name>)(分组起一个别名)
(?P=name)(引用别名为name的分组匹配字符串)
五、re模块的其他方法
search(pattern,string,flags=0)(在一个字符串中查找匹配)
str1='imooc videonum=1000'
ma=re.search(r'\d+',str1)
findall(pattern,string,flags=0)(找到匹配,返回所有匹配部分的列表)
str1='c++=100,java=90.python=80'
ma=re.findall(r'\d+',str1)
sum([int(x) for x in ma])
sub(pattern,repl,string,count=0,flags=0)(将字符串中匹配正则表达式的部分替换为其他值)
---1
str1='imooc videonum=1000'
ma=re.sub(r'\d+',1001,str1)
---2
def add1(match):
val=match.group()
num=int(val)+1
return str(num)
re.sub(r'\d+',add1,str1)
spilt(pattern,string,maxspilt=0,flags=0)(根据匹配分割字符串,返回分割字符串组成的列表)
str1='imooc:c++ c java python,c#'
re.split(r':| |,',str1)
---结果为:['imooc','c++','c','java','python','c#']