基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第三周:正则表达式

1.正则表达式的语法

正则表达式的常用操作符

在这里插入图片描述
在这里插入图片描述

正则表达式语法实例

在这里插入图片描述

经典正则表达式实例

在这里插入图片描述

匹配ip地址的正则表达式

在这里插入图片描述

2.re库的基本使用

正则表达式的表示类型

在这里插入图片描述

re库主要功能函数

在这里插入图片描述

1)re.search( )

在这里插入图片描述
在这里插入图片描述

import re
match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))

在这里插入图片描述

2)re.match( )

在这里插入图片描述

3)re.findall( )

在这里插入图片描述

import re
ls = re.findall(r'[1-9]\d{5}','BIT100081 TSU100084')
print(ls)

在这里插入图片描述

4)re.split( )

在这里插入图片描述

import re
ls1 = re.split(r'[1-9]\d{5}','BIT100081 TSU100084')
print(ls1)
ls2 = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit = 1)
print(ls2)

在这里插入图片描述

5)re.finditer( )

在这里插入图片描述

import re
for i in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
	if i:
		print(i.group(0))

在这里插入图片描述

6)re.sub( )

在这里插入图片描述

import re
print(re.sub(r'[1-9]\d{5}','zipcode','BIT100081 TSU100084'))

在这里插入图片描述
注:在使用sub的替换时,无法替换掉“\n”换行符,需先将“\n”替换为空或者空格,再进行替换

re.compile( )

在这里插入图片描述

re库的另一种等价用法

在这里插入图片描述

3.re库的match对象

match对象的属性

在这里插入图片描述

match对象的常用方法

在这里插入图片描述

import re
m = re.search(r'[1-9]\d{5}','BIT100081 TSU100084')
print(m.string)
print(m.re)
print(m.pos)
print(m.endpos)
print(m.group(0))
print(m.start())
print(m.end())
print(m.span())

在这里插入图片描述

4.re库的贪婪匹配和最小匹配

Re库默认采用贪婪匹配,即输出匹配最长的子串。

import re
match = re. search(r'PY.*N','PYANBNCNDN')
print(match.group(0))

在这里插入图片描述
当我们需要re库的最小匹配时,只需进行如下修改:

import re
match = re. search(r'PY.*?N','PYANBNCNDN')
print(match.group(0))

在这里插入图片描述

最小匹配操作符

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值