Python爬虫——4-1.数据筛选之正则表达式

本文回顾了正则表达式的基础,并重点介绍了在Python爬虫中如何运用正则表达式进行数据匹配,包括match()函数的使用,该函数能从指定位置开始进行一次性匹配。
摘要由CSDN通过智能技术生成

一、关于正则表达式的回顾

1.正则表达式两种操作:核心操作和快捷操作
核心操作:通过re模块的compile函数,将正则字符串编译成匹配对象,通过匹配对象对字符串进行匹配
如:
reg="my"
pattern=re.compile(reg)
str="my nama is youya ,my age is 20!"
pattern.match(str)

快捷操作:直接使用re模块的matchsearchfindallfinditer等函数
如:
re.match(reg,str)

match(): 用于根据表达式进行字符匹配的操作函数~只匹配一次[从指定的起始位置进行匹配]

search(): 用于根据表达式进行字符匹配的操作函数~只匹配一次[从完整的目标字符串中进行检索匹配]
findall(): 用于根据表达式进行字符匹配~匹配多次,返回匹配到的列表
finditer(): 用于根据表达式进行字符撇皮~匹配多次,返回匹配到的迭代器
split(): 根据指定的表达式对目标字符串进行切割,返回切割后的列表
sub(): 用于字符替换

1. 匹配对象的函数
match(string[, pos[, endpos]])
search(string[, pos[, endpos]])
findall(string[, pos[, endpos]])
finditer(string[, pos[, endpos]])

2. re模块的函数
match(pattern, string, flags=0)
search(pattern, string, flags=0)
findall(pattern, string, flags=0)
finditer(pattern, string, flags=0)

3. 公共函数【匹配对象|re模块操作方式一样】
split():拆分字符串的函数
sub():根据正则替换字符串的函数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值