爬虫day4 --re正则

最新推荐文章于 2024-06-01 20:08:56 发布

125﹌✪ω✪Ψ

最新推荐文章于 2024-06-01 20:08:56 发布

阅读量71

点赞数

本文链接：https://blog.csdn.net/Nick_125/article/details/117298378

版权

一.正则的简介

1.概念：
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑
2.应用场景
表单验证（如手机号，邮箱，身份证）
爬虫

二.match()函数

match(pattern, string, flags=0)

第一个参数是正则表达式，如果匹配成功，则返回一个match对象，否则返回一个None
第二个参数表示要匹配的字符串
第三个参数是标致位用于控制正则表达式的匹配方式如: 是否区分大小写,多行匹配等等

三.元字符

表达式	匹配
`.`	匹配除换行符\n以外的任意字符
`\|`	逻辑“或”操作符
`[ ]`	匹配字符集中一个字符
`[^]`	对字符集求反，尖号必须在方括号里最前面
`-`	定义[ ]里的字符区间，例如[a - z]
`()`	对表达式进行分组

表达式	匹配
`\r, \n`	匹配回车和换行符
`\t`	匹配制表符
`\\`	匹配斜杠
`\^`	匹配尖号
`\$`	匹配$号
`\.`	匹配点

四.预定义字符集

正则表达式中的一些表示方法，可以同时匹配某个预定义字符集中的任意一个字符。比如，表达式\d可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个

表达式	匹配
`\d`	任意一个数字，0~9的任意一个
`\w`	任意一个字母，数字，下划线，也就是0~9, A~Z, a~z,_中任意一个
`\s`	空格，制表符，换页符等空白字符的任意一个

改为大写就是他们的反集
如：\D = [^\d]

五.重复匹配

使用表达式再加上修饰匹配次数的特殊符号{}，不但重复书写表达式就可以重复匹配。例如[abcd][abcd]可以写成[abcd]{2}

表达式	匹配
`{n}`	表达式重复n次，比如\d{2}相当于\d\d,a{3}相当于aaa
`{m,n}`	表达式至少重复m次，最多n次。比如ab{1，3}可以匹配到ab，abb，abbb
`{m, }`	表达式至少重复m次，比如\w\d{2, }可以匹配a12，_1111, M123等等
`？`	匹配表达式0次或者1次，相当于{0，1}，比如a[cd]?可以匹配a,ac,ad
`+`	表达式至少出现1次，相当于{1，}，比如a+b可以匹配ab， aab，aaab等
`*`	表达式出现0次到任意次

六.非贪婪匹配

在重复匹配时，正则表达式默认总是尽可能多的匹配，这被称为贪婪模式。
例如，针对文本dxxxdxxxd，表达式(d)(\w+)(d)中的\w+将匹配第一个d和最后一个d之间的所有字符xxxdxxx。
可见，\w+在匹配的时候，总是尽可能多的匹配符合它规则的字符。
同理，带有?、*和{m,n}的重复匹配表达式都是尽可能地多匹配

七.其他

校验数字的相关表达式：
在这里插入图片描述

特殊场景的表达式:
在这里插入图片描述

八.分组功能

Python的re模块有一个分组功能。
所谓的分组就是去已经匹配到的内容再筛选出需要的内容，相当于二次过滤。
实现分组靠圆括号()，而获取分组的内容靠的是group()、groups()，其实前面我们已经展示过。
re模块里的积个重要方法在分组上，有不同的表现形式，需要区别对待

125﹌✪ω✪Ψ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫day4 --re正则

一.正则的简介1.概念：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑2.应用场景表单验证（如手机号，邮箱，身份证）爬虫二.match()函数match(pattern, string, flags=0)第一个参数是正则表达式，如果匹配成功，则返回一个match对象，否则返回一个None第二个参数表示要匹配的字符串第三个参数是标致位用于控制正则表达式的匹配方式如:
复制链接

扫一扫