python符号总结_Python:正则表达式基本符号总结

字符串是我们在编程的时候很常用的一种数据类型,检查会在字符串里面查找一些内容,对于比较简单的查找,字符串里面就有一些内置的方法可以处理,对于比较复杂的字符串查找,或者是有一些内容经常变化的字符串里面查找,那么字符串内置的查找方法已经不好使了,满足不了我们的要求,这个时候就得用正则表达式了,正则表达式就是用来匹配一些比较复杂的字符串。

说明:如果需要匹配的字符是正则表达式中的特殊字符,那么可以使用\进行转义处理,例如想匹配小数点可以写成\.就可以了,因为直接写.会匹配任意字符;同理,想匹配圆括号必须写成和。

在python中,如果使用正则表达式的话,需要导入re模块,re模块是一个内置模块,直接import就可以使用,下面是re模块中的核心函数。

说明:上面提到的re模块中的这些函数,实际开发中也可以用正则表达式对象的方法替代对这些函数的使用,如果一个正则表达式需要重复的使用,那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。

匹配字符串的几个方法

import re

s='chenshifeng is a good boy'print(re.match('chen',s))

#match方法接收3个参数,第一个是匹配的规则,也就是正则表达式,第二个是要查找的字符串,

#第三个参数不是必填的,用于控制正则表达式的匹配方式,看下面正则表达式的匹配模式。是从字符串的第一个单词中匹配字符串,如果匹配到返回一个对象,如果匹配不到,则返回None

#>>> print(re.search('feng',s))

#search方法的参数和match一样,和match方法不一样的是,match是从字符串里面的第一个单词里面找,而search方法则是从字符串的整个内容里面找,如果找到了就返回第一个,找不到就返回None

#>>> print(re.findall('feng',s))

#findall方法的参数上面的match、search一样,和他们不一样的是,findall会返回所有一个list,把所有匹配到的字符串,放到这个list里面,如果找不到的话,就返回一个空的list

#>>> ['feng']print(re.sub('chen','Chen',s))

#sub方法和字符串的replace方法一样,是用来替换字符串的,把匹配到的值替换成一个新的字符串,接收3个参数,第一个是正则表达式,第二个是要替换成什么,第三个就是要查找的字符串,会返回一个新的字符串,如果匹配不到的话,返回原来的字符串

#>>> Chenshifeng is a good boyprint(re.split('is',s))

#split 方法和字符串的split方法一样,是用来分割字符的,按照匹配到的字符串进行分割,返回的是一个list,如果匹配不到的话,那返回的list中还是原来的字符串

常用正则表达式符号

1、数量词

import re

str1="87alalsdkj34878273\nalkjsldkjfalsdjalksd2klajlfkasjlkdf"#"*" 匹配0次或者多次前面出现的正则表达式print(re.findall("al*",str1)) #等价于al|a

#结果:['al', 'al', 'al', 'al', 'al', 'a', 'a']

# “+”匹配前面出现的正则表达式一次或者多次print(re.findall("al+",str1)) #等价于“al”

#结果['al', 'al', 'al', 'al', 'al'],

# “?”匹配0次或者一次前面出现的正则表达式print(re.findall("al?",str1))

#结果:['al', 'al', 'al', 'al', 'al', 'a', 'a']

# 匹配前出现的正则表达式n次print(re.findall("[0-9]",str1))

#结果:['87', '34', '87', '82', '73']

# 匹配前出现的正则表达式n到m次print(re.findall("[0-9]",str1)) #两者都满满足时,值去最大的匹配

#结果:['87', '348', '782', '73']

2、一般字符串

'.' 默认匹配除\n之外的任意一个字符print(re.findall(r'b.','besttest is good'))'[....]',字符集合,

>>> ['be']

>>> ['st', 'st', 's', 'st']'\' 转译符,前面的* + ?这样的字符都有特殊含义了,如果你想就想找它的话,那就得转译了

意思就是说如果你想让特殊字符失去以前的含义,那么就得给它前面加上\

print(re.findall(r'\?','besttest is best????'))

>>> ['?', '?', '?', '?']

'|' 匹配|左或|右的字符

print(re.findall(r'best|is','besttest is best'))

>>> ['best', 'is', 'best']

'[]' 字符集合,某些字符的集合,匹配的时候是这个集合里面的任意一个就行

print(re.findall(r'be[stacj]','besttest is best bejson'))

>>>['bes', 'bes', 'bej']

在[]里面如果用^的话代表取反,也就是不包括的这些字符串的

print(re.findall(r'be[^stac]','besttest is best bejson'))

3、边界匹配

'^' 匹配以什么字符开头,多行情况下匹配每一行的开头

print(re.findall(r'^b','besttest is good'))>>> ['b']

print(re.findall(r'^b','besttest is good\nbest',re.M))#多行模式>>> ['b','b']'$' 匹配以什么字符结尾,多行情况下匹配每一行的结尾

print(re.findall(r'd$','besttest is good'))>>> ['d']

print(re.findall(r'd$','besttest is good\nbest is good',re.M))#多行模式 >>>['d','d']'\A' 仅以什么字符开头,和^不同的是它不能用多行模式

print(re.findall(r'\Ab','besttest is good'))>>> ['b']'\Z' 仅以什么字符结尾,和$不同的是它不能用多行模式

print(re.findall(r'd\Z','besttest is good'))>>> ['d']

4、预定义字符集合

'\d' 匹配数字0-9print(re.findall(r'\d+','sdf2342312sdfs'))>>> ['2342312']'\D' 匹配非数字

print(re.findall(r'\D','sdf2342312sdfs'))

>>>['sdf', 'sdfs']'\w' 匹配[A-Za-z0-9],也就是所有的字母和数字

print(re.findall(r'\w','sdf234%^2312sdfs&'))

>>>['sdf234', '2312sdfs']'\W' 匹配不是[A-Za-z0-9],也就是不是字母和数字

print(re.findall(r'\W','sdf234%^2312sdfs&'))

>>>['%', '^', '&']'\s' 匹配空白字符、\t、\n、\r,空格

print(re.findall('\s','axss\n\tsdf\t\r\t'))>>> ['\n', '\t', '\t', '\r', '\t']'\S'匹配空白字符,不是\t、\n、\r,空格

print(re.findall('\s','axss\n\tsdf\t\r\t'))

>>>['\n', '\t', '\t', '\r', '\t']

5、分组匹配

'(...)' 分组匹配,把某些规则写成在一个组里,这样就可以直接对这个进行一些匹配了,举个例子的话,如果要匹配ip地址的话

ip地址是类似这样的192.168.5.1,每一位都是1位或者3位的数字然后后面有个点正常写的话,得这么写

print(re.findall(r'\d.\d.\d.\d',"192.168.1.3"))>>> ['192.168.1.3']

这样写的话,有点麻烦了,通过上面的我们可以发现规律,除了第一个后面的全都是'.\d',写重复的代码就是低级的,这样的话就可以用分组了

就把'.\d'当做一个整体,然后让他们出现3次就ok了,可以改成下面这样的

print(re.search(r'\d(.\d)',"192.168.1.3").group())这个是用search方法的,结果和上面的一样的>>> 192.168.1.3print(re.findall(r'\d(.\d)',"192.168.1.3"))咱们继续用findall方法,发现结果是下面的>>> ['.3']

为啥会这样呢,用match方法和search方法都是正常的,findall方法这里有个坑,就是如果findall方法里面有分组的话,那结果就只是分组里面的内容

,如果想让结果正确的话就在分组最前面写上'?:',一个问号和一个冒号就好了,启用“不捕捉模式”

print(re.findall(r'\d(?:.\d)',"192.168.1.3"))

这么写结果就对了

正则表达式匹配模式

正则匹配模式是用在match、search、findall里面的第三个参数,还有其他的模式,但是一般也用不到,就这两种能用到

re.I: #忽略大小写re.M: #多行模式,改变'^'和'$'的行为re.findall('pattern', 'string',re.I)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值