《Python 3网络爬虫开发实战》chapter3

正则表达式

常用的匹配规则

模式描述
\w匹配字母、数字及下划线
\W匹配不是字母、数字及下划线的字符
\s匹配任意空白字符,等价于[\t\n\r\f]
\S匹配任意非空字符
\d匹配任意数字,等价于[0-9]
\D匹配任意非数字的字符
\A匹配字符串开头
\Z匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串
\z匹配字符串结尾,如果存在换行,同时还会匹配换行符
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配一行字符串的开头
$匹配一行字符串的结尾
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[]用来表示一组字符,单独列出,比如[amk]匹配a、m或k
[^…]不在[]中的字符,比如[^abc]匹配除了a、b、c之外的字符
*匹配0个或多个表达式
+匹配1个或多个表达式
匹配0个或1个前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面的表达式
{n,m}匹配n到m次由前面正则表达式定义的片段,贪婪方式
a\b匹配a或b
( )匹配括号内的表达式,也表示一个组

group()与group(1);贪婪匹配与非贪婪匹配

在这里插入图片描述

group()会输出完整的匹配结果,group(n)会输出第n个被()包围的匹配结果。

.*是贪婪匹配,会匹配尽可能多的字符。在程序的第6行,.*后面是\d+,也就是至少一个数字,并没有指定具体多少个数字,因此,.*就尽可能匹配多的字符,这里就把123456匹配了,给\d+留下一个可满足条件的数字7,最后得到的内容就只有数字7了。
.*?是非贪婪匹配,在程序的第3行,当.*?匹配到Hello后面的空白字符时,再往后的字符就是数字了,而\d+恰好可以匹配,那么这里的.*?就不再进行匹配,交给\d+去匹配后面的数字。所以这样,.*?匹配了尽可能少的字符,\d+的结果就是1234567了。

在这里插入图片描述
需要注意的是,如果匹配的结果在字符串结尾,.*?就有可能匹配不到任何内容了,因为它会匹配尽可能少的字符。如上图所示。

修饰符

修饰符描述
re.I是匹配对大小写不敏感
re.L使本地化识别(locale-aware)匹配
re.M多行匹配,影响^和$
re.S使.匹配包含换行在内的所有字符
re.U根据Unicode字符集解析字符。这个标志影响\w、\W、\b和\B
re.X该标志通过给予你更灵活的格式以便你将正则表达式写的更易于理解

例:

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)

转义匹配

在这里插入图片描述

re.match()方法是从字符串的开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。
re.search()方法,它在匹配时会烧苗整个字符串,然后返回第一个成功匹配的结果。如果没有符合规则的字符串,就返回None。
re.findall()方法,该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容。
re.sub()方法:

比如,想要把一串文本的所有数字都去掉,可以借助sub()方法。
只需要给第一个参数传入\d+来匹配所有的数字,第二个参数为替换成的字符串(如果去掉该参数的话,可以复制为空),第三个参数是原字符串。
在这里插入图片描述

re.compile()方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用。此外,compile()中还可以传入修饰符,例如re.S等修饰符,这样在search()、findall()等方法中就不需要额外传了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值