re正则表达式的基本认识

正则表达式的定义及规则

正则表达式也叫做匹配模式(Pattern),它由一组具有特定含义的字符串组成,通常用于匹配和替换文本。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。对于爬虫,基于正则表达式,从HTML里提取想要的信息就非常方便了。

正则表达式有特定的语法规则的。写好正则表达式后,就可以拿它去一个长字符串里匹配查找了。不论这个字符串里面有什么,只要符合我们写的规则,统统可以找出来。对于网页来说,如果想找出网页源代码里有多少URL,用匹配URL的正则表达式去匹配即可。
在此推荐一个在线测试正则的网址:http://tool.oschina.net/regex/#供使用

下图就列出了正则表达式常用的匹配规则
在这里插入图片描述
正则表达式不是Python独有的,它可以用在其他编程语言中。在Python中,re库提供了整个正则表达式的实现,利用这个库,可以在Python中使用正则表达式。在Python中写正则表达式几乎都用这个库,下面就来了解它的一些常用方法。

正则常用的方法

match()函数

re.match 尝试从字符串的首个字符开始匹配一个模式。
意思是:如果你要ABC,所查询的字符串前三位也要是ABC,有则成功,无则为None

函数语法:

re.match(pattern, string, flags=0)

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等

第一个匹配成功re.match方法返回一个匹配的对象,否则返回None。

#导包
import re

str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
<_sre.SRE_Match object; span=(0, 3), match='ABC'>
#导包
import re

str = 'QWEABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
None

group()方法

#导包
import re

str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res.group())
----------------------------
匹配结果:
ABC

search()函数

re.search匹配整个字符串,直到找到一个匹配。
意思是:如果你要ABC,在所查询的字符串中存在ABC,则成功,不存在则为None

函数语法:

re.match(pattern, string, flags=0)

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

只要匹配成功re.match方法返回一个匹配的对象,否则返回None。

#导包
import re

str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)

----------------------------
匹配结果:
<_sre.SRE_Match object; span=(4, 7), match='ABC'>
#导包
import re

str = 'QWE ABDEFG ABD ABER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)

----------------------------
匹配结果:
None

group()方法

#导包
import re

str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret.group())

----------------------------
匹配结果:
ABC

findall()函数

re.findall匹配整个字符串,找到所有匹配结果。

函数语法:

re.findall(pattern, string, flags=0)

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

返回string中所有与pattern相匹配的全部字串,返回形式为数组。

#导包
import re

str = 'QWE ABCDEFG  BABCD ABCER'
pat = 'ABC'
rey=re.findall(pat,str)
print(rey)
----------------------------
匹配结果:
['ABC', 'ABC', 'ABC']

sub()函数

compile()函数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值